Claude Opus 4.6：能力与基准评测

本章整理自 Claude Opus 4.6 System Card（2026年2月），Anthropic 官方发布的 213 页技术报告精华。所有数据均引自原报告。

概述

Claude Opus 4.6 是 Anthropic 于 2026 年 2 月发布的前沿大语言模型，在软件工程、Agent 任务和长上下文推理方面具有强大能力，同时在金融分析、文档创作和多步研究工作流等知识工作中表现出色。

关键发现：

能力相比前代模型全面提升，多项指标达到业界最先进水平（State-of-the-Art）
部署于 AI Safety Level 3 标准
在 sabotage concealment 和 computer-use 场景的过度主动行为方面有轻微增长，但未影响部署评估

模型训练与特性

训练数据与过程

Opus 4.6 在大规模文本和代码数据集上进行预训练，并通过 RLHF（人类反馈强化学习）和 Constitutional AI 方法进行对齐训练。

Extended Thinking 模式

Opus 4.6 支持两种思维模式，这对 Agent 开发意义重大：

模式	说明	适用场景
Adaptive Thinking	模型自动决定是否需要深度推理，按需分配计算	日常对话、简单任务
Extended Thinking	强制启用长链推理，产生更详细的思维过程	复杂数学、代码架构、多步分析

对 Agent 开发者的启示：在设计 Agent 系统时，可以根据任务复杂度动态切换思维模式。简单的文件操作用 Adaptive 节省 token，复杂的架构决策用 Extended 确保推理质量。

代码能力评测

SWE-bench：软件工程基准

SWE-bench 是 AI 代码能力的黄金标准测试，要求模型解决真实 GitHub 仓库的 issue。

变体	Opus 4.6	Opus 4.5	说明
SWE-bench Verified	80.84%	—	500 个人工验证可解的真实 issue
SWE-bench Multilingual	77.83%	—	300 个问题，覆盖 9 种编程语言

为什么这个分数重要：80%+ 意味着在 5 个真实软件 bug 中，模型能自主修复 4 个。SWE-bench Multilingual 首次验证了跨语言 Agent 的可行性——不仅限于 Python。

Terminal-Bench 2.0：终端操作能力

Terminal-Bench 测试模型在真实终端环境中执行复杂操作的能力（系统管理、网络配置、数据处理等）。

模型	Max Effort	High Effort	Medium Effort
Opus 4.6	65.4%	61.1%	55.1%
GPT-5.2-Codex	57.5% (Terminus-2) / 64.7% (Codex CLI)	—	—
Gemini 3 Pro	56.2%	—	—
Gemini 3 Flash	50.3%	—	—

评测方法：89 个任务，每个运行 15 次（共 1,335 次试验），分 3 批在不同时间执行以减少时间方差。

对 Agent 开发者的启示：Effort level 的选择直接影响性能和成本。Medium effort 比 Max effort 少用 40% 输出 token，但分数仅下降 10 个百分点——对于成本敏感的场景，这是值得权衡的。

OpenRCA：根因分析

OpenRCA 测试模型在企业级系统中诊断故障根因的能力。

模型	总体	Market	Banking	Telecom
Opus 4.6	34.9%	领先	领先	领先
Opus 4.5	26.9%	—	—	—
Sonnet 4.5	12.9%	—	—	—

Opus 4.6 在 335 个案例中完全识别了 117 个的根因（35%），比 Opus 4.5 提升 30%。

推理能力评测

ARC-AGI：抽象推理

ARC-AGI 是衡量模型抽象推理能力的标杆测试，被认为是通向 AGI 的关键指标之一。

基准	Opus 4.6 (High Effort)	说明
ARC-AGI-1	94%	超越此前所有模型的 SOTA
ARC-AGI-2	69.17%	新的 cost/performance 前沿

ARC-AGI-1 94% 意味着什么：这个基准长期被视为 LLM 的弱项（需要真正的抽象推理而非模式匹配）。94% 表明 Opus 4.6 在某些维度上已接近人类水平的抽象推理。

GPQA Diamond 与 AIME

基准	说明	Opus 4.6
GPQA Diamond	研究生级科学问答	领先
AIME 2025	数学竞赛（美国数学邀请赛级别）	领先
MMMLU	大规模多任务多语言	领先

金融能力评测

Opus 4.6 首次接受了系统性的金融领域评测，这对企业级 Agent 应用意义重大。

Finance Agent（Vals AI 外部评测）

测试模型作为金融 Agent 的信息检索和分析能力：

模型	得分
Opus 4.6	60.70%
对比基准	55.23% ~ 56.55%

Real-World Finance（Anthropic 内部评测）

模拟真实金融分析师工作流：从原始数据到最终交付物的端到端评测。

约 50 个真实世界高难度任务
覆盖：数据提取 → 计算推理 → 结构化报告生成
需要跨多种文件类型工作（Excel、PDF、文本）
模拟完整的分析师工作流

对 Agent 开发者的启示：金融 Agent 是企业级 Agent 最成熟的落地场景之一。Opus 4.6 的金融评测方法论（端到端工作流 + 多文件类型 + 结构化输出）可直接参考用于设计行业 Agent 的评测框架。

长上下文能力

MRCR v2（多轮共指消解）

测试模型在超长上下文中追踪实体引用的能力，这是 Agent 长对话的关键能力。

设置	Opus 4.6	说明
1M context, 8 needles	SOTA	百万 token 上下文中精准定位 8 个关键信息
256K subset	SOTA	256K 子集同样领先

GraphWalks

测试模型在长文本中进行多跳推理的能力（图结构遍历）。

Opus 4.6 在 1M 上下文窗口中保持稳定推理质量
与竞品相比，在上下文超过 500K token 后优势更明显

对 Agent 开发者的启示：长上下文能力意味着 Agent 可以在更少的 RAG 检索次数下完成复杂任务。对于代码库理解场景，可以直接将大段代码放入上下文而非依赖分块检索。

Agent 搜索能力

这是 System Card 中最具 Agent 特色的评测部分。

BrowseComp：复杂网络搜索

BrowseComp 包含 1,266 个需要深度网络搜索才能回答的问题。

配置	Opus 4.6	说明
单 Agent	83.73%	SOTA，禁用 Adaptive Thinking 效果更好
多 Agent	86.57%	多 Agent 协作进一步提升
Opus 4.5	~63%	单 Agent 基线

关键发现：

Test-time compute scaling 有效：提高 token 上限（从 1M 到 10M）对困难问题有实质性帮助
新旧模型差异：Opus 4.6 比 Opus 4.5 在相同 token 预算下高出 20 个百分点
旧模型无法受益：Sonnet 4.5 等旧模型不会因 token 上限增大而提升

多 Agent 搜索架构（System Card 披露的实际配置）：

编排 Agent（Orchestrator）
  ├── 子Agent 1（200K 上下文）
  │     └── 工具：web_search + web_fetch + 代码执行
  ├── 子Agent 2（200K 上下文）
  │     └── 工具：同上
  └── ...
  
编排层：上下文压缩 @ 50K tokens，总限制 1M tokens

Humanity's Last Exam

跨学科极高难度问答，被认为是"人类最后的考试"。

配置	Opus 4.6	说明
无工具	—	基线
带工具	53.0%	编程式工具调用 + 上下文压缩 + 自适应思维

DeepSearchQA

900 个 prompt 的多步信息检索基准，覆盖 17 个领域。

Opus 4.6 达到 SOTA
标准配置：编程式搜索工具 + 上下文压缩 + Adaptive Thinking + Max Effort + 10M total tokens

对 Agent 开发者的启示：Anthropic 自己的最佳搜索配置是 compaction + PTC + max effort。这个组合可以直接借鉴到你的 Agent 搜索实现中。

多模态能力

基准	Opus 4.6	说明
LAB-Bench FigQA	领先	科学图表理解
MMMU-Pro	70.6%	多模态多学科推理
CharXiv Reasoning	领先	学术图表推理

自主能力评测（RSP Autonomy）

Anthropic 根据其 Responsible Scaling Policy 评估 Opus 4.6 的自主完成 AI 研究任务的能力。

内部 AI 研究评估套件

任务	说明	Opus 4.6 表现
Kernels	编写高性能计算核心	显著提升
时序预测	时间序列分析	提升
文本 RL	文本环境中的强化学习	提升
LLM 训练	自主训练小型语言模型	显著提升
四足 RL	四足机器人强化学习控制	提升
Novel Compiler	设计新编译器	提升

关键结论

Opus 4.6 在 AI 研究任务中展示了显著的自主完成能力
自主能力未超过 ASL-3 阈值，确认可在当前安全等级下部署
内部加速指标显示 Opus 4.6 对 Anthropic 工程师的工作有实质性加速效果

与竞品模型对比总览

基准	Opus 4.6	GPT-5.2	Gemini 3 Pro	领先者
SWE-bench Verified	80.84%	—	—	Opus 4.6
Terminal-Bench 2.0	65.4%	57.5~64.7%	56.2%	Opus 4.6
ARC-AGI-1	94%	—	—	Opus 4.6
ARC-AGI-2	69.17%	—	—	Opus 4.6
BrowseComp (单Agent)	83.73%	—	—	Opus 4.6
MRCR v2 1M	SOTA	—	—	Opus 4.6

对本书读者的意义

书中章节	对应 Opus 4.6 能力	启示
第6章工具调用	MCP-Atlas 评测	工具调用架构经受住了大规模基准验证
第8章多Agent协作	BrowseComp 多Agent（+2.84%）	多 Agent 架构在搜索场景有明确的性能增益
第10章评估与优化	System Card 评估方法论	可直接参考其 3-batch × 15-run 的实验设计
第12章 RAG增强	1M 长上下文 SOTA	长上下文可部分替代 RAG，减少检索步骤
第24章性能调优	Effort level 对比	Medium effort 节省 40% token，性能仅降 10pt
第36章生产架构	多 Agent 搜索架构	编排层 + 子Agent(200K) + 压缩(50K) 的参考架构

完整报告：本章为精华摘要。完整的 213 页 System Card 包含更多评测细节、置信区间、图表和方法论描述，建议有兴趣的读者查阅原文。

Claude Opus 4.6：能力与基准评测 ​

概述 ​

模型训练与特性 ​

训练数据与过程 ​

Extended Thinking 模式 ​

代码能力评测 ​

SWE-bench：软件工程基准 ​

Terminal-Bench 2.0：终端操作能力 ​

OpenRCA：根因分析 ​

推理能力评测 ​

ARC-AGI：抽象推理 ​

GPQA Diamond 与 AIME ​

金融能力评测 ​

Finance Agent（Vals AI 外部评测） ​

Real-World Finance（Anthropic 内部评测） ​

长上下文能力 ​

MRCR v2（多轮共指消解） ​

GraphWalks ​

Agent 搜索能力 ​

BrowseComp：复杂网络搜索 ​

Humanity's Last Exam ​

DeepSearchQA ​

多模态能力 ​

自主能力评测（RSP Autonomy） ​

内部 AI 研究评估套件 ​

关键结论 ​

与竞品模型对比总览 ​

对本书读者的意义 ​