Claude Opus 4.8 正式发布!代码能力暴涨、1000 个子 Agent 并行,还预告了更强的 Mythos
昨天(2026 年 5 月 28 日),Anthropic 悄悄发布了 Claude Opus 4.8。

昨天(2026 年 5 月 28 日),Anthropic 悄悄发布了 Claude Opus 4.8。
说"悄悄",是因为没有发布会、没有大型活动——只是一篇官方博客,直接宣布新模型今日可用。但 AI 圈的反应一点都不低调:开发者论坛刷屏,技术社区热议,TechCrunch、Axios、9to5Google 等媒体在同一时间密集报道。
距离 Opus 4.7 发布仅六周,Anthropic 就交出了这份成绩单。不是小修小补,而是几项实实在在的突破:代码能力跨越式提升、诚实度提升四倍、动态工作流让 1000 个子 Agent 并行成为现实——以及一个让整个行业绷紧神经的预告:比 Opus 更强的 Mythos 级别模型,数周内将向所有用户开放。
这篇文章,带你把这次发布吃透。
核心亮点速览
先看官方 benchmark 对比表,直观感受 Opus 4.8 的进步幅度:

| 评测指标 | Opus 4.7 | Opus 4.8 | 提升 |
|---|---|---|---|
| SWE-Bench Pro(代码) | 64.3% | 69.2% | +4.9% |
| 多学科推理(带工具) | 54.7% | 57.9% | +3.2% |
| Agent 电脑操作(OSWorld) | 82.3% | 83.4% | +1.1% |
| 知识工作评分 | 1753 | 1890 | +7.8% |
| 代码漏洞漏报率 | 基准 | 降低 4 倍 | 显著改善 |
| Online-Mind2Web(浏览器 Agent) | 未公开 | 84% | 超越 GPT-5.5 |
定价方面,标准模式与 Opus 4.7 完全相同:输入 $5/M token,输出 $25/M token。Fast Mode 定价为输入 $10/M、输出 $50/M,但相比上一代的 Fast Mode,价格降低了三倍。
一、代码能力:不只是涨分,更是"不再说谎"
SWE-Bench Pro 69.2%,超越 GPT-5.5
SWE-Bench Pro 是目前最权威的真实世界代码修复评测之一,要求模型在真实开源项目的 GitHub Issue 中完成 bug 修复。Opus 4.8 的 69.2% 不仅超过了 Opus 4.7 的 64.3%,也超过了 GPT-5.5 和 Gemini 3.1 Pro。
官方收录了来自 Shopify、Cursor、Devin、Databricks 等 11 家公司的真实评价:

Cursor 联合创始人兼 CEO Michael Truell 在官方评价中写道:
"在 CursorBench 上,Claude Opus 4.8 在每个 effort 级别都超过了先前的 Opus 模型。工具调用效率明显提升,完成同等难度任务所需步骤更少,并且能持续推进端到端任务。"
一个细节值得注意:GPT-5.5 在终端编码基准 Terminal-Bench 2.1 上仍以 83.4% 领先(Opus 4.8 为 79.4%)。这说明两家在代码方向的竞争仍在你追我赶——但 Opus 4.8 在真实工程场景下的综合表现已经明确占优。
诚实度提升四倍:AI 终于学会说"我不确定"
这是这次发布中最被忽视、却可能最重要的改进。
过去用 AI 写代码,一个令人头疼的问题是:模型在出错时往往不承认,甚至主动掩盖问题。代码跑不通,它可能告诉你"已经修好了";逻辑有漏洞,它可能直接略过不提。
Anthropic 的测评数据显示,Opus 4.8 在代码缺陷漏报方面比 Opus 4.7 降低了四倍——也就是说,它更可能主动告诉你:"这里有个问题,我还没有把握。"
一家做长周期金融分析的公司 Sr. Investment Associate Michael Ran 评价道:
"最大的差异化是 Opus 4.8 倾向于主动标记分析输入输出中的问题,而其他模型通常会遗漏这些,留给用户自己去发现。"
Anthropic 的对齐评估图表清楚地说明了这一点——Opus 4.8 的失调行为率已与 Mythos Preview 持平,远低于 Opus 4.7:

这对于 Agent 场景尤为关键。一个不会主动报告失败的 Agent,在无人监督运行时可能把错误越滚越大;一个能主动"举手"的 Agent,才是真正可以放手的助手。
二、动态工作流:1000 个子 Agent 并行,重新定义"大任务"
这是这次发布的最大惊喜,也是最值得开发者深入了解的新功能。

什么是动态工作流?
以前,Claude 在 Claude Code 中处理复杂任务时,基本上是"一个人干完所有事"——顺序思考、顺序执行,遇到需要并行处理的环节也只能等待。
动态工作流改变了这个模式:Claude 会先规划整个任务,写出一个 JavaScript 编排脚本,然后同时启动数十到数百个子 Agent 并行推进。中间状态保存在脚本变量里,最终结果经过交叉验证后才返回给用户。
官方给出的一个典型场景:百万行级别的代码库迁移。从启动到合并,全程由 Claude Code 自主完成,以现有测试套件作为验收标准。

关键参数
- 最多 1000 个子 Agent / 次运行
- 最多 16 个并发 子 Agent
- 子 Agent 之间可以"互相验证",一组找解法,另一组专门挑错
- 目前处于研究预览阶段,仅限 Claude Code Enterprise、Team 和 Max 计划
Devin CEO Scott Wu 的评价揭示了这一功能在实际工程中的价值:
"它使工具调用更简洁,指令执行更一致,正是我们自动化工程工作流需要的那种可靠性。这次发布直接转化为我们工程师更快的能力提升。"
和 Effort 控制搭配使用
与动态工作流同期发布的还有 Effort 控制,让用户可以调节 Claude 的推理深度:
- Low:响应快,消耗 token 少,适合简单查询
- High(默认):Anthropic 认为最均衡的体验,性能与 Opus 4.7 相近但表现更好
- Extra(Claude Code 中为
xhigh):更深入思考,适合复杂任务和长时间异步工作流 - Max:最高推理强度,适合最难的任务
官方特别说明:高 Effort 模式不只是"多想一会儿",而是更频繁、更深入地推理——对应的 rate limit 也已上调以适应更高的 token 消耗。
三、Fast Mode 大幅降价:性价比新选择
Fast Mode 在 Opus 4.8 上迎来了重大调整:速度提升 2.5 倍,价格相比上一代 Fast Mode 降低三倍。
从定价角度看:
- 标准模式:$5/M 输入,$25/M 输出
- Fast Mode:$10/M 输入,$50/M 输出
乍看 Fast Mode 更贵,但要注意:Fast Mode 完成同一任务需要的 token 更少(因为响应更直接、推理链更短),加上速度优势,整体成本和时间效益对于高并发场景非常可观。
Databricks CTO Hanlin Tang 也提到了一个相关数据:Opus 4.8 的多模态能力相比 Opus 4.7 在 token 成本上便宜了 61%——这对需要处理大量 PDF、图表等非结构化内容的企业客户来说意义重大。
一个对开发者很实用的新 API 功能
除了上述功能,这次还有一个低调但重要的更新:Messages API 现在支持在消息数组中插入 system 条目。
这意味着什么?开发者可以在 Agent 运行过程中,动态更新 Claude 的指令(比如权限、token 预算、环境上下文),而不会打断 prompt cache,也不需要绕道走 user turn。对于复杂的 Agent 框架来说,这极大降低了架构设计的复杂度。
四、彩蛋:Mythos 级别模型,数周内全面开放
如果说 Opus 4.8 是一次扎实的迭代,那么 Anthropic 在发布文末埋下的这枚"炸弹"才是真正让行业绷紧神经的信息。
官方博客原文:
"我们计划发布一个比 Opus 智能水平更高的新模型类别。作为 Project Glasswing 的一部分,少数组织正在将 Claude Mythos Preview 用于网络安全工作。这一能力级别的模型在正式发布前需要更强的网络安全保障。我们正在快速推进这些保障措施的开发,预计在未来数周内将 Mythos 级别模型带给所有用户。"
这里有几个值得关注的信息点:
-
Mythos 不是 Opus 的下一代命名,而是一个全新的能力级别。Opus 系列继续迭代,Mythos 是独立于 Opus 之上的更高层级。
-
Opus 4.8 的对齐表现已接近 Mythos Preview。Anthropic 内部评估显示,Opus 4.8 的失调行为(如欺骗、配合滥用等)率"与我们最佳对齐模型 Claude Mythos Preview 相近"。这是一个很强的信号:Mythos 的差距主要在智能水平上,而非安全性。
-
Project Glasswing 的背后逻辑:更强大的模型需要更严格的网络安全保障才能开放,这正是 Anthropic"负责任扩展政策"的实践体现。
对比当下 AI 行业的竞争格局——OpenAI 正在备战 IPO、Google 频繁更新 Gemini 系列——Anthropic 这波节奏明显在加速。Opus 4.8 打好基础,Mythos 压轴登场,攻势清晰。
什么时候该升级到 Opus 4.8?
对于不同场景的建议:
立即升级:
- 在做代码库级别的大型重构或迁移
- 使用 Claude Code 处理复杂 Agent 任务
- 对代码准确性和 AI 诚实度要求高
可以等等看:
- 日常轻量级问答和写作,Sonnet 系列性价比更高
- 预算敏感型项目,等 Mythos 发布后再做整体评估
开发者行动清单:
- 将 API 调用中的模型 ID 更新为
claude-opus-4-8 - 尝试
xhighEffort 模式用于复杂推理任务 - 如果是 Enterprise/Team/Max 用户,申请动态工作流研究预览
总结
Claude Opus 4.8 不是一次颠覆性发布,但是一次密度很高的实用性升级:代码准确率新高、诚实度大幅提升、动态工作流开创并行 Agent 新范式、Fast Mode 性价比改善——每一项都指向更可靠、更实用的 AI 协作体验。
更重要的是,这次发布传递了一个信号:Anthropic 正在加速。距离 Mythos 全面开放,可能真的只剩几周了。
参考来源
- Anthropic 官方公告:Introducing Claude Opus 4.8
- TechCrunch:Anthropic releases Opus 4.8 with new 'dynamic workflow' tool
- Axios:Anthropic releases new model, Opus 4.8
- 9to5Google:Claude Opus 4.8 launches today
- MarkTechPost:Anthropic Ships Claude Opus 4.8 Alongside Dynamic Workflows
- Claude Opus 4.8 System Card