训练成本大降超九成!阿里开源下一代基础模型架构,引入混合注意力机制

9月12日,阿里通义发布下一代基础模型架构Qwen3-Next和基于新架构的模型Qwen3-Next-80B-A3B,包含两个版本:更擅长理解和执行指令的指令(Insctruct)模型,以及更擅长多步推理和深度思考的推理(Thinking)模型。据介绍,相比Qwen3的MoE(混合专家)模型结构,Qwen3-Next进行了以下核心改进:混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化,以及提升推理效率的多token预测机制(简称MTP,Multiple-Token Prediction)。

上一篇:

下一篇:

已有 0 条评论