• Anthropic发布Claude Opus 4.8,编程能力与可靠性性双双提升
  • 发布于 14小时前
  • 13 热度
    0 评论
  • 飛雲
  • 0 粉丝 67 篇博客
  •   
堆代码讯 Anthropic 今日宣布推出其最新 AI 模型 Claude Opus 4.8。Anthropic 称,该模型在智能体编码、多学科推理、智能体计算机使用、知识工作以及智能体金融分析等方面均有改进,是一款“更高效的协作伙伴”。测试人员发现,Opus 4.8 在执行智能体任务时“判断更可靠、更敏锐”,同时该模型在诚实性方面也有所提升。

早期测试人员报告称,Opus 4.8 更倾向于标记其工作中存在的不确定之处,而不太会做出缺乏依据的断言。这一点在评估中得到了印证:评估显示,与前代模型相比,Opus 4.8 对自己所写代码中的缺陷轻描淡写、一带而过的可能性降低了约四倍。对齐性评估表明,该模型在支持用户自主性、以用户最佳利益行事等亲社会特质的指标上达到了新高。欺骗等不对齐行为的比率低于 Opus 4.7,与 Claude Mythos 预览版相当。

Anthropic 的基准测试显示,Opus 4.8 在 SWE-Bench Pro 上取得了 69.2% 的分数,在该测试及其他几项基准上均优于 GPT-5.5 和 Gemini 3.1 Pro,尽管 GPT-5.5 在终端编码基准上仍处于领先地位。Opus 4.8 的快速模式运行速度提升了 2.5 倍,且成本比此前模型降低了三倍。除了 Opus 4.8,Anthropic 还在其产品线中增加了新功能。

动态工作流(研究预览):Claude 能够在 Claude Code 中完成更大型的任务。它可以规划工作,并在单次会话中运行数百个并行的子智能体。它能够完成涉及数十万行代码的代码库级迁移。该功能适用于 Claude Code 的企业版、团队版和 Max 套餐。
算力控制:在 Claude.ai 和 Cowork 中,用户可以选择 Claude 在回复中投入多少算力。选择较低设置时,Claude 响应更快,同时消耗速率限制的速度也更慢。Opus 4.8 默认使用高算力设置,Anthropic 表示这是质量与用户体验的最佳平衡。
Messages API:Messages API 现在接受消息数组中的系统条目,从而使开发者能够在任务进行中更新 Claude 的指令。
Claude Opus 4.8 即日起全面上线。与 Opus 4.7 相比,常规使用的定价保持不变。

Anthropic 正在研发具备与 Opus 4.8 相同能力但成本更低的模型,以及一类比 Opus 更具智慧的全新模型。Anthropic 表示,其一直在为其正在与少数组织测试的 Claude Mythos 模型开发安全防护措施,并预计“在未来几周内”能够将 Mythos 类模型带给所有客户。
用户评论