LLaDA 2.0 – 蚂蚁集团开源的离散扩散大语言模型
LLaDA 2.0是什么
LLaDA 2.0 是蚂蚁集团开源的离散扩散大语言模型(dLLM),包含 16B(mini)和 100B(flash)两个版本。打破了扩散模型难以扩展的瓶颈,首次将参数规模扩展至 100B 量级。通过创新的 Warmup-Stable-Decay(WSD)持续预训练策略,LLaDA 2.0 实现了从自回归(AR)模型到扩散模型的平滑过渡,继承了 AR 模型的知识,避免了从头训练的高昂成本。

LLaDA 2.0的主要功能
-
大规模参数扩展:LLaDA 2.0 提供了 16B 和 100B 两个版本,是目前规模最大的扩散语言模型,突破了扩散模型难以大规模扩展的限制。
-
高效推理加速:借助并行解码机制,LLaDA 2.0 的推理速度高达 535 tokens/s,比同级自回归模型快 2.1 倍,显著提升了生成效率。
-
平滑过渡与知识继承:采用 Warmup-Stable-Decay(WSD)策略,实现从自回归模型到扩散模型的平滑过渡,继承了 AR 模型的知识,避免了从头训练的成本。
-
卓越性能表现:在代码生成、数学推理、智能体任务等结构化生成任务中展现出显著优势,同时在其他领域与开源 AR 模型持平。
-
完全开源共享:LLaDA 2.0 的模型权重(16B/100B)及相关训练代码已在 Hugging Face 完全开源,方便开发者使用和进一步研究。
LLaDA 2.0的技术原理
-
扩散模型架构:LLaDA 2.0 基于扩散模型(Diffusion Model),通过逐步去噪的方式生成文本,与传统的自回归生成方式不同,能够并行解码多个标记,从而提高生成速度。
-
混合专家架构(MoE):结合 MoE 架构,在每次推理中仅激活部分参数(约14.4亿),在保持高性能的同时显著降低计算成本。
-
Warmup-Stable-Decay(WSD)策略:通过三阶段预训练(逐步增加块大小、全序列训练、缩小块大小),实现从自回归模型到扩散模型的平滑过渡,继承已有知识并优化推理效率。
-
置信度感知并行训练(CAP):在并行解码时,通过辅助损失函数奖励“预测正确且置信度高”的标记,提升解码效率,实现高速推理。
-
扩散模型版 DPO:利用证据下界(ELBO)近似条件概率,将偏好学习(DPO)适配到扩散模型,优化模型输出以符合人类偏好。
-
文档级注意力掩码:在多文档拼接训练时,设计文档级注意力掩码,避免无关文档间的错误连接,确保长文本的语义连贯性。
LLaDA 2.0的项目地址
- Hugging Face模型库:https://huggingface.co/collections/inclusionAI/llada-20
- 技术报告:https://github.com/inclusionAI/LLaDA2.0/blob/main/tech_report.pdf
LLaDA 2.0的应用场景
-
代码生成:LLaDA 2.0 在代码生成任务中表现出色,能生成高质量的代码片段,帮助开发者快速实现功能。
-
数学推理:模型在数学问题求解和复杂推理任务中展现了强大的能力,可用于教育、科研等领域。
-
智能体任务:支持复杂的智能体调用和长文本任务,适用于需要多步骤推理和工具调用的场景。
-
文本生成:能生成高质量的文本内容,适用于创意写作、内容生成等场景。
-
知识问答:在知识理解与问答任务中表现良好,可用于智能客服、知识图谱等领域。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号