蚂蚁开源首个100B扩散语言模型LLaDA2.0

12月12日,蚂蚁集团正式开源了LLaDA2.0系列。LLaDA2.0 包含 MoE 架构的 16B (mini) 和 100B (flash) 两个版本,我们将 Diffusion 模型的参数规模首次扩展到了 100B 量级。此次发布,我们的模型不仅打破了扩散模型难以扩展的固有印象,更在代码、数学和智能体任务上展现出了超越同级自回归(AR)模型的优异性能。

上一篇:

下一篇:

已有 0 条评论