Claude Opus 4.6:能力与基准评测
本章整理自 Claude Opus 4.6 System Card(2026年2月),Anthropic 官方发布的 213 页技术报告精华。所有数据均引自原报告。
概述
Claude Opus 4.6 是 Anthropic 于 2026 年 2 月发布的前沿大语言模型,在软件工程、Agent 任务和长上下文推理方面具有强大能力,同时在金融分析、文档创作和多步研究工作流等知识工作中表现出色。
关键发现:
- 能力相比前代模型全面提升,多项指标达到业界最先进水平(State-of-the-Art)
- 部署于 AI Safety Level 3 标准
- 在 sabotage concealment 和 computer-use 场景的过度主动行为方面有轻微增长,但未影响部署评估
模型训练与特性
训练数据与过程
Opus 4.6 在大规模文本和代码数据集上进行预训练,并通过 RLHF(人类反馈强化学习)和 Constitutional AI 方法进行对齐训练。
Extended Thinking 模式
Opus 4.6 支持两种思维模式,这对 Agent 开发意义重大:
| 模式 | 说明 | 适用场景 |
|---|---|---|
| Adaptive Thinking | 模型自动决定是否需要深度推理,按需分配计算 | 日常对话、简单任务 |
| Extended Thinking | 强制启用长链推理,产生更详细的思维过程 | 复杂数学、代码架构、多步分析 |
对 Agent 开发者的启示:在设计 Agent 系统时,可以根据任务复杂度动态切换思维模式。简单的文件操作用 Adaptive 节省 token,复杂的架构决策用 Extended 确保推理质量。
代码能力评测
SWE-bench:软件工程基准
SWE-bench 是 AI 代码能力的黄金标准测试,要求模型解决真实 GitHub 仓库的 issue。
| 变体 | Opus 4.6 | Opus 4.5 | 说明 |
|---|---|---|---|
| SWE-bench Verified | 80.84% | — | 500 个人工验证可解的真实 issue |
| SWE-bench Multilingual | 77.83% | — | 300 个问题,覆盖 9 种编程语言 |
为什么这个分数重要:80%+ 意味着在 5 个真实软件 bug 中,模型能自主修复 4 个。SWE-bench Multilingual 首次验证了跨语言 Agent 的可行性——不仅限于 Python。
Terminal-Bench 2.0:终端操作能力
Terminal-Bench 测试模型在真实终端环境中执行复杂操作的能力(系统管理、网络配置、数据处理等)。
| 模型 | Max Effort | High Effort | Medium Effort |
|---|---|---|---|
| Opus 4.6 | 65.4% | 61.1% | 55.1% |
| GPT-5.2-Codex | 57.5% (Terminus-2) / 64.7% (Codex CLI) | — | — |
| Gemini 3 Pro | 56.2% | — | — |
| Gemini 3 Flash | 50.3% | — | — |
评测方法:89 个任务,每个运行 15 次(共 1,335 次试验),分 3 批在不同时间执行以减少时间方差。
对 Agent 开发者的启示:Effort level 的选择直接影响性能和成本。Medium effort 比 Max effort 少用 40% 输出 token,但分数仅下降 10 个百分点——对于成本敏感的场景,这是值得权衡的。
OpenRCA:根因分析
OpenRCA 测试模型在企业级系统中诊断故障根因的能力。
| 模型 | 总体 | Market | Banking | Telecom |
|---|---|---|---|---|
| Opus 4.6 | 34.9% | 领先 | 领先 | 领先 |
| Opus 4.5 | 26.9% | — | — | — |
| Sonnet 4.5 | 12.9% | — | — | — |
Opus 4.6 在 335 个案例中完全识别了 117 个的根因(35%),比 Opus 4.5 提升 30%。
推理能力评测
ARC-AGI:抽象推理
ARC-AGI 是衡量模型抽象推理能力的标杆测试,被认为是通向 AGI 的关键指标之一。
| 基准 | Opus 4.6 (High Effort) | 说明 |
|---|---|---|
| ARC-AGI-1 | 94% | 超越此前所有模型的 SOTA |
| ARC-AGI-2 | 69.17% | 新的 cost/performance 前沿 |
ARC-AGI-1 94% 意味着什么:这个基准长期被视为 LLM 的弱项(需要真正的抽象推理而非模式匹配)。94% 表明 Opus 4.6 在某些维度上已接近人类水平的抽象推理。
GPQA Diamond 与 AIME
| 基准 | 说明 | Opus 4.6 |
|---|---|---|
| GPQA Diamond | 研究生级科学问答 | 领先 |
| AIME 2025 | 数学竞赛(美国数学邀请赛级别) | 领先 |
| MMMLU | 大规模多任务多语言 | 领先 |
金融能力评测
Opus 4.6 首次接受了系统性的金融领域评测,这对企业级 Agent 应用意义重大。
Finance Agent(Vals AI 外部评测)
测试模型作为金融 Agent 的信息检索和分析能力:
| 模型 | 得分 |
|---|---|
| Opus 4.6 | 60.70% |
| 对比基准 | 55.23% ~ 56.55% |
Real-World Finance(Anthropic 内部评测)
模拟真实金融分析师工作流:从原始数据到最终交付物的端到端评测。
- 约 50 个真实世界高难度任务
- 覆盖:数据提取 → 计算推理 → 结构化报告生成
- 需要跨多种文件类型工作(Excel、PDF、文本)
- 模拟完整的分析师工作流
对 Agent 开发者的启示:金融 Agent 是企业级 Agent 最成熟的落地场景之一。Opus 4.6 的金融评测方法论(端到端工作流 + 多文件类型 + 结构化输出)可直接参考用于设计行业 Agent 的评测框架。
长上下文能力
MRCR v2(多轮共指消解)
测试模型在超长上下文中追踪实体引用的能力,这是 Agent 长对话的关键能力。
| 设置 | Opus 4.6 | 说明 |
|---|---|---|
| 1M context, 8 needles | SOTA | 百万 token 上下文中精准定位 8 个关键信息 |
| 256K subset | SOTA | 256K 子集同样领先 |
GraphWalks
测试模型在长文本中进行多跳推理的能力(图结构遍历)。
- Opus 4.6 在 1M 上下文窗口中保持稳定推理质量
- 与竞品相比,在上下文超过 500K token 后优势更明显
对 Agent 开发者的启示:长上下文能力意味着 Agent 可以在更少的 RAG 检索次数下完成复杂任务。对于代码库理解场景,可以直接将大段代码放入上下文而非依赖分块检索。
Agent 搜索能力
这是 System Card 中最具 Agent 特色的评测部分。
BrowseComp:复杂网络搜索
BrowseComp 包含 1,266 个需要深度网络搜索才能回答的问题。
| 配置 | Opus 4.6 | 说明 |
|---|---|---|
| 单 Agent | 83.73% | SOTA,禁用 Adaptive Thinking 效果更好 |
| 多 Agent | 86.57% | 多 Agent 协作进一步提升 |
| Opus 4.5 | ~63% | 单 Agent 基线 |
关键发现:
- Test-time compute scaling 有效:提高 token 上限(从 1M 到 10M)对困难问题有实质性帮助
- 新旧模型差异:Opus 4.6 比 Opus 4.5 在相同 token 预算下高出 20 个百分点
- 旧模型无法受益:Sonnet 4.5 等旧模型不会因 token 上限增大而提升
多 Agent 搜索架构(System Card 披露的实际配置):
编排 Agent(Orchestrator)
├── 子Agent 1(200K 上下文)
│ └── 工具:web_search + web_fetch + 代码执行
├── 子Agent 2(200K 上下文)
│ └── 工具:同上
└── ...
编排层:上下文压缩 @ 50K tokens,总限制 1M tokensHumanity's Last Exam
跨学科极高难度问答,被认为是"人类最后的考试"。
| 配置 | Opus 4.6 | 说明 |
|---|---|---|
| 无工具 | — | 基线 |
| 带工具 | 53.0% | 编程式工具调用 + 上下文压缩 + 自适应思维 |
DeepSearchQA
900 个 prompt 的多步信息检索基准,覆盖 17 个领域。
- Opus 4.6 达到 SOTA
- 标准配置:编程式搜索工具 + 上下文压缩 + Adaptive Thinking + Max Effort + 10M total tokens
对 Agent 开发者的启示:Anthropic 自己的最佳搜索配置是 compaction + PTC + max effort。这个组合可以直接借鉴到你的 Agent 搜索实现中。
多模态能力
| 基准 | Opus 4.6 | 说明 |
|---|---|---|
| LAB-Bench FigQA | 领先 | 科学图表理解 |
| MMMU-Pro | 70.6% | 多模态多学科推理 |
| CharXiv Reasoning | 领先 | 学术图表推理 |
自主能力评测(RSP Autonomy)
Anthropic 根据其 Responsible Scaling Policy 评估 Opus 4.6 的自主完成 AI 研究任务的能力。
内部 AI 研究评估套件
| 任务 | 说明 | Opus 4.6 表现 |
|---|---|---|
| Kernels | 编写高性能计算核心 | 显著提升 |
| 时序预测 | 时间序列分析 | 提升 |
| 文本 RL | 文本环境中的强化学习 | 提升 |
| LLM 训练 | 自主训练小型语言模型 | 显著提升 |
| 四足 RL | 四足机器人强化学习控制 | 提升 |
| Novel Compiler | 设计新编译器 | 提升 |
关键结论
- Opus 4.6 在 AI 研究任务中展示了显著的自主完成能力
- 自主能力未超过 ASL-3 阈值,确认可在当前安全等级下部署
- 内部加速指标显示 Opus 4.6 对 Anthropic 工程师的工作有实质性加速效果
与竞品模型对比总览
| 基准 | Opus 4.6 | GPT-5.2 | Gemini 3 Pro | 领先者 |
|---|---|---|---|---|
| SWE-bench Verified | 80.84% | — | — | Opus 4.6 |
| Terminal-Bench 2.0 | 65.4% | 57.5~64.7% | 56.2% | Opus 4.6 |
| ARC-AGI-1 | 94% | — | — | Opus 4.6 |
| ARC-AGI-2 | 69.17% | — | — | Opus 4.6 |
| BrowseComp (单Agent) | 83.73% | — | — | Opus 4.6 |
| MRCR v2 1M | SOTA | — | — | Opus 4.6 |
对本书读者的意义
| 书中章节 | 对应 Opus 4.6 能力 | 启示 |
|---|---|---|
| 第6章 工具调用 | MCP-Atlas 评测 | 工具调用架构经受住了大规模基准验证 |
| 第8章 多Agent协作 | BrowseComp 多Agent(+2.84%) | 多 Agent 架构在搜索场景有明确的性能增益 |
| 第10章 评估与优化 | System Card 评估方法论 | 可直接参考其 3-batch × 15-run 的实验设计 |
| 第12章 RAG增强 | 1M 长上下文 SOTA | 长上下文可部分替代 RAG,减少检索步骤 |
| 第24章 性能调优 | Effort level 对比 | Medium effort 节省 40% token,性能仅降 10pt |
| 第36章 生产架构 | 多 Agent 搜索架构 | 编排层 + 子Agent(200K) + 压缩(50K) 的参考架构 |
完整报告:本章为精华摘要。完整的 213 页 System Card 包含更多评测细节、置信区间、图表和方法论描述,建议有兴趣的读者查阅原文。