POPSOFT
POPSOFT

Anthropic发布Claude Opus4.8:编码与对齐能力同步升级

Anthropic发布Claude Opus4.8:编码与对齐能力同步升级

Anthropic发布Claude Opus4.8,重点强化代码生成、多学科推理与自动化操作等代理任务表现,被定位为更可靠的协作模型。测试反馈显示,模型在复杂任务中的判断更稳健,并更愿意标注不确定性,减少无依据断言。

https://popsoft.com/wp-content/uploads/2026/05/Anthropic推出Claude-Opus-4.8-1024x576.webp

内部评估指出,Opus4.8在代码审查中遗漏自身错误的概率较前代下降约四倍,体现出更强的自我纠错能力。在对齐性测试中,模型在支持用户决策与维护用户利益等指标上达到新高,误导性行为低于Opus4.7,并接近Claude Mythos预览模型水平。

基准测试方面,Opus4.8在SWE‑Bench Pro中取得69.2%成绩,领先GPT‑5.5与Gemini3.1 Pro,但终端编码类测试仍由GPT‑5.5保持优势。快速模式推理速度提升至2.5倍,使用成本降至旧型号的约三分之一。

https://popsoft.com/wp-content/uploads/2026/05/3ef02f01c6a31ec-1024x552.webp

Anthropic同步推出“动态工作流”研究预览,允许模型在Claude Code环境中拆解任务并调度大量子代理,支持跨大型代码库的迁移操作,现向企业版、团队版与Max订阅开放。交互层面新增“努力程度控制”,用户可调节单次回答的计算资源,Opus4.8默认采用高努力模式。

Messages API更新后可在消息数组中加入系统级指令,使开发者能在任务执行中动态调整模型行为,无需重开会话。Opus4.8已在全球开放使用,定价与Opus4.7一致。Anthropic同时研发更低成本的同级模型,并推进能力高于Opus4.8的下一代产品。

#
首页      资讯      Anthropic发布Claude Opus4.8:编码与对齐能力同步升级
Avatar photo

AstralBARD

文章作者

星之吟游诗人是也。

推荐阅读

POPSOFT

Anthropic发布Claude Opus4.8:编码与对齐能力同步升级
Anthropic发布Claude Opus4.8,重点强化代码生成、多学科推理与自动化操作等代理任务表现,被定位为更可靠的协作模型。测试反馈显示,模型在复杂任务中的判断更稳健,并更愿意标注不确定…
扫描二维码继续阅读
2026-05-29