Anthropic发布Claude Opus4.8：编码与对齐能力同步升级

Anthropic发布Claude Opus4.8，重点强化代码生成、多学科推理与自动化操作等代理任务表现，被定位为更可靠的协作模型。测试反馈显示，模型在复杂任务中的判断更稳健，并更愿意标注不确定性，减少无依据断言。

内部评估指出，Opus4.8在代码审查中遗漏自身错误的概率较前代下降约四倍，体现出更强的自我纠错能力。在对齐性测试中，模型在支持用户决策与维护用户利益等指标上达到新高，误导性行为低于Opus4.7，并接近Claude Mythos预览模型水平。

基准测试方面，Opus4.8在SWE‑Bench Pro中取得69.2%成绩，领先GPT‑5.5与Gemini3.1 Pro，但终端编码类测试仍由GPT‑5.5保持优势。快速模式推理速度提升至2.5倍，使用成本降至旧型号的约三分之一。

Anthropic同步推出“动态工作流”研究预览，允许模型在Claude Code环境中拆解任务并调度大量子代理，支持跨大型代码库的迁移操作，现向企业版、团队版与Max订阅开放。交互层面新增“努力程度控制”，用户可调节单次回答的计算资源，Opus4.8默认采用高努力模式。

Messages API更新后可在消息数组中加入系统级指令，使开发者能在任务执行中动态调整模型行为，无需重开会话。Opus4.8已在全球开放使用，定价与Opus4.7一致。Anthropic同时研发更低成本的同级模型，并推进能力高于Opus4.8的下一代产品。