训练成本大降超九成！阿里开源下一代基础模型架构，引入混合注意力机制

9月12日，阿里通义发布下一代基础模型架构Qwen3-Next和基于新架构的模型Qwen3-Next-80B-A3B，包含两个版本：更擅长理解和执行指令的指令（Insctruct）模型，以及更擅长多步推理和深度思考的推理（Thinking）模型。据介绍，相比Qwen3的MoE（混合专家）模型结构，Qwen3-Next进行了以下核心改进：混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化，以及提升推理效率的多token预测机制（简称MTP，Multiple-Token Prediction）。