Claude Sonnet 4.6 – Anthropic推出的最新一代AI模型

AI项目 2026-02-18

Claude Sonnet 4.6是什么

Claude Sonnet 4.6是Anthropic推出的最新一代AI模型，定位”高性能与高性价比”的平衡点。在编程、计算机操作、长文本推理和智能体规划等核心能力上实现全面升级，性能已接近旗舰Opus 4.6水平，API定价仅为其五分之一。Sonnet 4.6支持100万token超长上下文窗口，单次可处理完整代码库或数十篇论文，并引入”自适应思考”机制，能根据任务复杂度动态分配推理资源。在OSWorld计算机使用基准测试中，得分从4.5版的61.4%跃升至72.5%，接近人类水平。

Claude Sonnet 4.6的主要功能

智能编程助手：在SWE-bench Verified编程基准测试中达到79.6%，支持代码生成、调试、重构和多文件项目理解，能处理复杂软件工程任务。
计算机使用能力：具备高级GUI自动化操作能力，在OSWorld基准测试中得分72.5%，可执行网页表单填写、表格导航、跨应用操作等复杂任务。
超长上下文处理：测试版支持100万token上下文窗口（是前代的两倍），单次请求可分析完整代码库、长篇法律合同或数十篇研究论文。
自适应思考推理：引入Adaptive Thinking机制，模型可根据任务复杂度自动分配计算资源，替代固定模式的”扩展思考”开关。
多模态理解：支持图像、图表和文档的视觉分析，能解读复杂数据可视化内容并生成结构化见解。
智能体规划执行：在GDPval办公任务测试中Elo评分达1633，支持多步骤任务分解、工具调用和自主决策。
长文本推理：在ARC-AGI-2推理基准测试中得分58.3%-60.4%，较4.5版的13.6%实现质的飞跃。

Claude Sonnet 4.6的技术原理

混合专家架构（MoE）：采用稀疏激活的混合专家架构，总参数量达1万亿，每次前向传播仅激活320亿参数，在保持高性能的同时提升推理效率。
自适应思考机制（Adaptive Thinking）：引入动态计算分配系统，模型可根据任务复杂度自动调节推理深度，替代固定模式的”扩展思考”开关，实现计算资源的智能调度。
超长上下文窗口：测试版支持100万token上下文，通过优化的注意力机制和位置编码技术，实现对超长文档的高效处理和记忆保持。
计算机使用训练：基于大规模GUI交互数据进行训练，结合视觉感知和动作预测，使模型能够理解界面元素并执行精确的鼠标点击、键盘输入等操作。
多模态融合架构：整合文本、图像和结构化数据的统一表征空间，支持跨模态信息关联和推理，提升对图表、截图等视觉内容的理解能力。
智能体框架集成：内置工具调用接口和任务规划模块，支持ReAct（推理-行动）范式的自主决策循环，实现复杂多步骤任务的分解与执行。

Claude Sonnet 4.6的基准测试

编程能力（SWE-bench Verified）：得分79.6%，较Sonnet 4.5的77.2%进一步提升，接近Opus 4.6水平，在代码生成、调试和软件工程任务中表现优异。
计算机使用（OSWorld-Verified）：得分72.5%，较4.5版的61.4%大幅提升近20%，接近人类水平的GUI自动化操作能力。
推理能力（ARC-AGI-2）：得分58.3%-60.4%，较4.5版的13.6%实现质的飞跃，展现强大的抽象推理和问题解决能力。
办公任务（GDPval）：Elo评分达1633，较4.5的1276显著提升，在文档处理、数据分析和日常办公自动化方面表现突出。
多模态理解（MMMU）：得分74.7%，在视觉问答和跨模态推理任务中保持领先水平。
开发者偏好测试：70%的开发者反馈优于Sonnet 4.5，59%的测试中表现优于Opus 4.5，在指令遵循和减少幻觉方面获得高度认可。