Anthropic 于 2025 年 10 月 15 日发布了 Claude Haiku 4.5,这是 Claude 4 系列的轻量级模型,专为高效任务执行设计。它在速度和成本上优于前代(如 Claude Sonnet 4),输出速度是其的两倍以上,成本仅为其三分之一,同时在编码和代理任务上表现出色。 该模型特别适合执行任务场景,如编码、终端操作和指令跟随,基准测试显示其在这些领域接近前沿模型水平。
评测效果调研
根据官方发布和第三方分析,Claude Haiku 4.5 在任务执行相关的基准上表现强劲,尤其在编码和代理任务中。以下是关键评测结果的总结,我重点选取了与“执行任务”相关的基准(如编码、终端/计算机使用、代理行为)。数据来源于 Anthropic 官方新闻、系统卡和 SWE-bench 排行榜。 成绩以百分比或通过率表示,并附比较(相对于 Claude Sonnet 4 或 Claude 3.5 Haiku)。
|
|
|
|
|
|---|---|---|---|
| SWE-bench Verified
|
|
|
|
| SWE-bench Verified
|
|
|
|
| Terminal-Bench
|
|
|
|
| Cybench
|
|
|
|
| τ2-bench
|
|
|
|
| OSWorld
|
|
|
|
| Claude Code
|
|
|
|
| Benign Request Evaluations
|
|
|
|
总体分析
- 优势
在任务执行上,Haiku 4.5 特别适合成本敏感的场景,如并行子任务协调或实时代理(如终端操作)。它在 SWE-bench 等编码基准上达到了“世界最佳”水平之一,同时保持低延迟(<1 秒响应)。 安全方面,它被评为 AI Safety Level 2 (ASL-2),在生物/网络风险任务中表现出低风险。 - 局限
在复杂数学(如 AIME)或多语言任务(MMMLU)上分数未详尽公布,但整体低于 Sonnet 4.5;在极端代理任务(如病毒学模拟)上低于 Opus 4.1。 - 标准 LLM 基准
(如 MMLU、GPQA、HumanEval):官方未详细公布,但从排行推测,Haiku 4.5 在 HumanEval (编码生成) 上预计 >80%,MMLU (知识) >85%,GPQA (研究生级) >50%,基于其与 Sonnet 4 的相似性。

