Anthropic发布Claude Opus 4.8，编程能力与可靠性性双双提升-堆代码网

Anthropic发布Claude Opus 4.8，编程能力与可靠性性双双提升

发布于 1个月前
 261 热度

 0 评论

飛雲
0 粉丝 68 篇博客

堆代码讯 Anthropic 今日宣布推出其最新 AI 模型 Claude Opus 4.8。Anthropic 称，该模型在智能体编码、多学科推理、智能体计算机使用、知识工作以及智能体金融分析等方面均有改进，是一款“更高效的协作伙伴”。测试人员发现，Opus 4.8 在执行智能体任务时“判断更可靠、更敏锐”，同时该模型在诚实性方面也有所提升。

早期测试人员报告称，Opus 4.8 更倾向于标记其工作中存在的不确定之处，而不太会做出缺乏依据的断言。这一点在评估中得到了印证：评估显示，与前代模型相比，Opus 4.8 对自己所写代码中的缺陷轻描淡写、一带而过的可能性降低了约四倍。对齐性评估表明，该模型在支持用户自主性、以用户最佳利益行事等亲社会特质的指标上达到了新高。欺骗等不对齐行为的比率低于 Opus 4.7，与 Claude Mythos 预览版相当。

Anthropic 的基准测试显示，Opus 4.8 在 SWE-Bench Pro 上取得了 69.2% 的分数，在该测试及其他几项基准上均优于 GPT-5.5 和 Gemini 3.1 Pro，尽管 GPT-5.5 在终端编码基准上仍处于领先地位。Opus 4.8 的快速模式运行速度提升了 2.5 倍，且成本比此前模型降低了三倍。除了 Opus 4.8，Anthropic 还在其产品线中增加了新功能。

动态工作流（研究预览）：Claude 能够在 Claude Code 中完成更大型的任务。它可以规划工作，并在单次会话中运行数百个并行的子智能体。它能够完成涉及数十万行代码的代码库级迁移。该功能适用于 Claude Code 的企业版、团队版和 Max 套餐。
算力控制：在 Claude.ai 和 Cowork 中，用户可以选择 Claude 在回复中投入多少算力。选择较低设置时，Claude 响应更快，同时消耗速率限制的速度也更慢。Opus 4.8 默认使用高算力设置，Anthropic 表示这是质量与用户体验的最佳平衡。
Messages API：Messages API 现在接受消息数组中的系统条目，从而使开发者能够在任务进行中更新 Claude 的指令。
Claude Opus 4.8 即日起全面上线。与 Opus 4.7 相比，常规使用的定价保持不变。

Anthropic 正在研发具备与 Opus 4.8 相同能力但成本更低的模型，以及一类比 Opus 更具智慧的全新模型。Anthropic 表示，其一直在为其正在与少数组织测试的 Claude Mythos 模型开发安全防护措施，并预计“在未来几周内”能够将 Mythos 类模型带给所有客户。

 用户评论

IT那些事
 348 成员 |  4710 话题
+我要提问 +随便写写

可能感兴趣的话题

Rivian首批R2 SUV正式交付，逆势突围美国电动车市场

苹果Siri AI落地，走出最聪明的AI突围之路

AI告别规模至上，低成本小模型掀起产业大变局

macOS 27 将带来哪些新功能变化点？