QwenLong-L1.5 – 阿里通义开源的长文本推理模型
QwenLong-L1.5是什么
QwenLong-L1.5 是阿里通义实验室推出的专注于长文本推理的大语言模型。模型基于 Qwen3-30B-A3B 架构,通过系统化的后训练方案,显著提升长文本推理能力。模型通过高质量的数据合成管线、稳定的强化学习方法和突破物理窗口限制的记忆管理框架,解决传统模型在长文本任务中的不足,如训练不稳定、上下文窗口有限等问题。模型在多个长文本推理基准测试中表现优异,性能接近甚至超越 GPT-5 等顶尖模型,同时在通用能力上有显著提升。

QwenLong-L1.5的主要功能
-
长文本推理:模型能处理和推理超长文本(如百万级 Token 的文档),解决需要跨段落、跨文档的复杂问题。
-
多跳推理:支持多跳逻辑推理,即通过多个步骤串联信息,完成复杂的推理任务。
-
信息整合:从长文本中提取和整合分散的信息,用于回答需要全局理解的问题。
-
记忆管理:通过记忆增强框架,处理超出物理上下文窗口的任务,实现对超长文本的高效推理。
-
通用能力提升:在数学推理、智能体记忆和长对话等通用任务上有显著提升,表现出良好的泛化能力。
QwenLong-L1.5的技术原理
- 高质量数据合成管线:QwenLong-L1.5 通过“先拆解,后组合”的方式构建高质量的长文本推理数据。模型将长文档拆解为原子事实及其关系,利用知识图谱、多文档表格等工具,程序化地合成需要多跳推理和全局信息整合的复杂问题。
- 稳定的强化学习方法:QwenLong-L1.5 引入任务均衡采样和任务专属优势估计策略,应对长文本多任务训练中的数据分布偏移和奖励信号不稳定问题。同时,提出自适应熵控制策略优化(AEPO)算法,通过动态调控负梯度,平衡模型的探索与利用,有效解决长文本强化学习中的不稳定性,确保模型在更长的序列上稳定训练。
- 突破物理窗口的记忆管理框架:设计记忆管理框架,通过多阶段融合强化学习训练,将单次推理与迭代式记忆处理相结合。模型在处理超长文本时,不依赖于有限的上下文窗口,通过分块处理和迭代记忆更新,将全局信息“折叠”到紧凑的记忆表示中,突破物理窗口的限制,实现对超长文本的高效推理。
QwenLong-L1.5的项目地址
- GitHub仓库:https://github.com/Tongyi-Zhiwen/Qwen-Doc
- HuggingFace模型库:https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1.5-30B-A3B
- arXiv技术论文:https://arxiv.org/pdf/2512.12967
QwenLong-L1.5的应用场景
-
长文档分析:用于分析财务报告、法律文件和学术文献等,提取关键信息和进行多跳推理,辅助专业人员快速理解复杂内容。
-
代码理解和生成:帮助开发者理解大型代码库,生成代码片段和补全建议,提升编程效率和代码质量。
-
复杂问答系统:处理多跳问答和长文档查询,为智能客服和知识问答系统提供准确、深度的答案。
-
信息检索与整合:优化搜索引擎结果,从长文本中提取知识构建知识图谱,提升信息检索的准确性和效率。
-
教育与学习:辅助在线教育平台和智能辅导系统,帮助学生理解复杂学术问题,支持个性化学习。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号