Composer 2.5 – Cursor 推出的自研 Agentic 编程模型

AI项目 2026-05-19

Composer 2.5是什么

Composer 2.5 是 Cursor 推出的自研 Agentic 编程模型。在智能水平和行为表现上较 Composer 2 有大幅提升,在 SWE-Bench Multilingual(79.8%)CursorBench v3.1(63.2%) 等核心基准上与 Claude Opus 4.7、GPT-5.5 处于同一梯队,但单次任务成本仅为竞品的约 1/10,称为”性价比之王”。模型基于 Moonshot 开源的 Kimi K2.5 检查点持续训练,目前仅通过 Cursor IDE 及 SDK 提供服务。

Composer 2.5

Composer 2.5的主要功能

  • 长时任务持续工作:针对长时间运行的 Agent 会话深度优化,能在多步骤工具调用中保持专注,显著减少中途幻觉或提前终止的问题。
  • 复杂指令可靠遵循:对跨文件重构、终端命令执行、测试驱动开发等复杂指令的遵循可靠性较 Composer 2 大幅提升。
  • 努力级别动态校准:模型能根据任务难度自动分配计算量,简单任务快速完成,复杂任务深入思考,避免”小事空转、大事欠思考”。
  • 沟通风格优化:回复更简洁结构化,减少不必要的冗长解释,在多文件变更时提供更清晰的推理过程。
  • 工具调用精准度提升:显著减少无效的终端命令或冗余搜索,提升代码检索与终端操作效率。
  • 双版本灵活适配:提供 Standard(标准版,$0.50/$2.50 per M tokens)与 Fast(快速版,$3.00/$15.00 per M tokens),智能水平相同,分别适配后台批量任务与交互式实时编程。

如何使用Composer 2.5

  • 在 Cursor IDE 中启用:将 Cursor 更新至 2026 年 5 月最新稳定版,打开 Composer 面板(Cmd+I / Ctrl+I),点击模型选择器切换至 Composer 2.5
  • 选择速度档位:交互式开发默认使用 Fast 版(响应快、延迟低);后台 Agent 或批量任务可在 Settings > Models 中切换为 Standard 版(成本低,智能水平相同)
  • 通过 SDK 程序化调用
import { Agent } from "@cursor/sdk";
const agent = await Agent.create({
  model: "composer-2.5",        // Standard 版
  // model: "composer-2.5-fast", // Fast 版
  workspace: "./",
  tools: ["edit", "shell", "search", "browser"],
});
  • 为长时任务设限:为无人看管的长时间 Agent 会话设置迭代次数上限和最大耗时,防止模型利用缓存等”捷径”进行奖励作弊
  • 领取首发福利:发布首周提供双倍用量额度,可在后台查看额度消耗情况
  • 多模型路由策略:将 90% 日常任务交给 Composer 2.5 处理;仅将架构评审类任务路由给 Claude Opus 4.7,重度终端 Shell 任务路由给 GPT-5.5

Composer 2.5的核心优势

  • 极致性价比:Standard 版输入 $0.50/M、输出 $2.50/M,Fast 版输入 $3.00/M、输出 $15.00/M,比 Claude Opus 4.7 便宜约 10~30 倍。
  • 前沿级基准表现:SWE-Bench Multilingual 79.8%(Opus 4.7 为 80.5%,GPT-5.5 为 77.8%),CursorBench v3.1 63.2%(与 Opus 4.7 的 64.8% 和 GPT-5.5 的 64.3% 基本持平)。
  • 行为层面深度优化:除了扩大训练规模,还改进了沟通风格和投入级别校准,这些维度虽难被基准充分反映,但对实际使用体验至关重要。
  • 双版本灵活选择:Standard(标准版)适合后台 Agent 与批量任务,Fast(快速版,默认)适合交互式 IDE 实时编程,两者智能水平完全相同。
  • 首发双倍用量福利:发布首周提供双倍用量额度。

Composer 2.5的同类竞品对比

对比维度 Composer 2.5 Claude Opus 4.7 GPT-5.5
厂商 / 平台 Cursor Anthropic OpenAI
产品定位 自研 Agentic 编程模型 旗舰推理模型 旗舰多模态模型
基座模型 Moonshot Kimi K2.5(开源检查点持续训练) Claude 4 系列 GPT-5 系列
发布日期 2026.05.18 2026 年 Q2 2026 年 Q2
SWE-Bench Multilingual 79.8% 80.5% 77.8%
Terminal-Bench 2.0 69.3% 69.4% 82.7%
CursorBench v3.1(困难任务) 63.2% 64.8%(max)/ 61.6%(默认 xhigh) 64.3%(xhigh)/ 59.2%(默认 medium)
输入价格(/M tokens) $0.50(Standard)<
$3.00(Fast)
未公开(行业参考约 $15) 未公开(行业参考约 $3–$5)
输出价格(/M tokens) $2.50(Standard)<
$15.00(Fast)
未公开(行业参考约 $75) 未公开(行业参考约 $15–$30)
单次任务相对成本 基准(约 $1–$2 / 任务) 约 10–30 倍 约 3–10 倍
上下文窗口 ~200K(参考 Kimi K2.5) 200K 128K–1M
权重开放性 闭源(仅 Cursor 基础设施) 闭源 闭源
接入方式 Cursor IDE / CLI / @cursor/sdk API / Claude Code / 第三方平台 API / ChatGPT / GitHub Copilot

Composer 2.5的应用场景

  • 多文件级重构:成本优势明显且精度持平前沿模型,适合大规模代码库迁移。
  • 交互式结对编程:Fast 版响应迅速,适合实时 IDE 协作。
  • 后台定时任务/云 Agent:Standard 版性价比极高,适合批量代码审查与修复。
  • 测试驱动开发:长时任务可靠性优于前代,能稳定完成多轮测试-修复循环。
  • 复杂终端自动化:Terminal-Bench 2.0 得分 69.3%,与 Opus 4.7(69.4%)持平,但重度 Shell 场景仍略逊于 GPT-5.5(82.7%)。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章