Leanstral – Mistral AI推出的首个开源AI代码智能体

AI框架 2026-03-19

Leanstral是什么

Leanstral 是Mistral AI推出的首个开源AI代码智能体,专为Lean 4定理证明器设计。模型采用120B总参数/6B激活参数的稀疏架构,能自动生成形式化证明并验证代码正确性。相比巨型竞品,Leanstral以极低成本(单次$18)实现更高效率,在真实数学代码库(如费马大定理项目)评测中表现优异。模型支持通过MCP协议扩展,已集成至Mistral Vibe平台。

Leanstral

Leanstral的主要功能

  • 自动形式化证明生成:针对Lean 4证明助手,自动生成严格的数学证明和软件规范验证代码。
  • 代码正确性验证: 通过Lean 4的完备验证器,确保生成的代码符合严格的形式化规范,消除人工审查瓶颈。
  • 智能诊断与修复:支持分析代码失败原因(如识别defabbrev在类型别名中的差异),提供精确的修复方案。
  • 跨语言转换:支持将其他证明语言(如Rocq/Coq)自动转换为Lean 4代码,保留自定义符号表示。
  • 定理证明辅助:在真实数学代码库(如费马大定理项目)中完成形式化证明和新数学概念的定义。

Leanstral的关键信息和使用要求

  • 开发商:Mistral AI
  • 定位:首个专为Lean 4设计的开源AI代码智能体
  • 架构:稀疏专家混合(MoE),120B总参数 / 6B激活参数
  • 许可证:Apache 2.0(完全开源)
  • 成本:单次$18,pass@2仅$36(对比Claude Sonnet $549)
  • 性能:FLTEval评分29.3(pass@4),超越多数开源竞品
  • Mistral Vibe:零配置集成,输入/leanstall即可使用
  • Labs API:免费/低价端点 labs-leanstral-2603(限时开放)
  • 本地部署:下载开源权重自行运行

Leanstral的核心优势

  • 极致效率:以仅6B激活参数超越千亿级开源模型,实现性能与成本的最佳平衡。
  • 成本革命:单次任务仅需18美元,以Claude Sonnet 1/15的价格实现更优的验证效果。
  • 完全开源:使用Apache 2.0协议开放权重,消除供应商锁定,支持私有化部署与自主可控。
  • 垂直优化:专为Lean 4证明工程深度训练,在真实数学代码库中表现远超通用大模型。
  • 可信验证:支持生成代码附带形式化数学证明,将人工审查瓶颈转化为机器自动验证。
  • 生态兼容:原生支持MCP协议,可无缝集成现有开发工具链与语言服务器。

如何使用Leanstral

  • Mistral Vibe(推荐新手):访问 Mistral Vibe 平台,在对话中输入 /leanstall 命令即可零配置启动,无需安装任何本地环境。
  • Labs API(开发者):调用 API 端点 labs-leanstral-2603,目前限时免费开放,适合集成到自动化工作流或自建应用。
  • 本地部署(高级用户):从官方渠道下载 Apache 2.0 许可的模型权重,在自己的硬件上独立运行,实现完全的数据隐私和控制。
  • 使用建议:配合 lean-lsp-mcp 工具可获得最佳性能,适用于形式化数学证明、高可信软件验证等场景。

Leanstral的项目地址

  • 项目官网:https://mistral.ai/news/leanstral

Leanstral的同类竞品对比

对比维度 模型 规模 FLTEval得分 成本 特点
Leanstral Leanstral-120B-A6B 120B/6B 26.3 (pass@2)
29.3 (pass@4)
31.9 (pass@16)
$18-$290 专为Lean 4优化,开源,MCP扩展
开源竞品 Qwen3.5-397B-A17B 397B/17B 25.4 (pass@4) 需4轮才能达到Leanstral 2轮效果
Kimi-K2.5-1T-A32B 1T/32B 20.1 (pass@4) 规模巨大但得分瓶颈明显
GLM5-744B-A40B 744B/40B 16.6 (pass@4) 参数最大但性能最差
闭源竞品 Claude Opus 4.6 39.6 $1,650 质量最高但成本是Leanstral 92倍
Claude Sonnet 4.6 23.7 $549 成本是Leanstral 15倍,得分更低
Claude Haiku 4.5 23.0 $184 性价比平庸

Leanstral的应用场景

  • 形式化数学证明:在费马大定理等大型数学项目中自动完成形式化证明,正确定义新的数学概念。
  • 高可信软件验证:验证Rust等编程语言代码片段的严格属性,确保 mission-critical 系统的软件正确性。
  • 代码库迁移适配:诊断、修复Lean版本升级导致的破坏性变更,例如自动识别defabbrev在类型别名中的差异并提供修复。
  • 跨语言代码转换:将Rocq/Coq等其他证明语言代码完整转换为Lean 4,保留自定义符号表示和逻辑结构。
  • 智能调试诊断:模型支持分析编译失败的根本原因,自动生成测试用例复现问题,并给出精确的修复方案与原理说明。

<!-- Remove item from normal navigation flow, only available via hotkey -->

<!-- Remove item from normal navigation flow, only available via hotkey -->

©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章