大数跨境
0
0

AI: Claude Haiku 4.5 模型概述

AI: Claude Haiku 4.5 模型概述 运维开发与AI实战
2025-10-16
4
导读:Claude Haiku 4.5 在任务执行相关的基准上表现强劲,尤其在编码和代理任务中。以下是关键评测结果的总结,我重点选取了与“执行任务”相关的基准(如编码、终端/计算机使用、代理行为)。

Anthropic 于 2025 年 10 月 15 日发布了 Claude Haiku 4.5,这是 Claude 4 系列的轻量级模型,专为高效任务执行设计。它在速度和成本上优于前代(如 Claude Sonnet 4),输出速度是其的两倍以上,成本仅为其三分之一,同时在编码和代理任务上表现出色。 该模型特别适合执行任务场景,如编码、终端操作和指令跟随,基准测试显示其在这些领域接近前沿模型水平。Anthropic、「Claude Haiku 4.5」リリース Sonnet 4の性能を3分の1のコストで実現 - ITmedia AI+

评测效果调研

根据官方发布和第三方分析,Claude Haiku 4.5 在任务执行相关的基准上表现强劲,尤其在编码和代理任务中。以下是关键评测结果的总结,我重点选取了与“执行任务”相关的基准(如编码、终端/计算机使用、代理行为)。数据来源于 Anthropic 官方新闻、系统卡和 SWE-bench 排行榜。 成绩以百分比或通过率表示,并附比较(相对于 Claude Sonnet 4 或 Claude 3.5 Haiku)。

基准名称
成绩
描述
与前代比较
SWE-bench Verified
 (全数据集,编码任务)
73.3%
评估真实世界软件工程任务执行能力,使用 bash 和文件编辑工具,无测试时计算。适合代理式编码执行。
接近 Claude Sonnet 4 (73%),远超 Claude 3.5 Haiku (约 30%)。
SWE-bench Verified
 (hard 子集,自主性评估)
36.6% (pass@1)
评估 2-8 小时自主软件工程任务,针对递归自改进风险。
与 Claude Sonnet 4 (36.7%) 相当。
Terminal-Bench
 (终端任务)
41.75%
评估计算机使用任务,如命令行操作和应用交互。
超过 Claude Sonnet 4 在某些子任务上,提升了如 Claude for Chrome 等工具的响应性。
Cybench
 (网络安全任务)
46.9% (15/32 挑战通过)
评估漏洞发现、利用开发和攻击协调等专业 CTF 任务执行。
低于 Claude Sonnet 4 (68.8%),但在轻量模型中出色。
τ2-bench
 (代理任务)
未公布具体分数(平均 10 次运行)
评估航空和电信代理交互中的指令跟随和用户处理。
优化了失败模式,适合多步任务执行。
OSWorld
 (操作系统任务)
未公布具体分数
评估操作系统环境中的任务执行,如文件管理和导航。
改进代理框架,支持更长的思考预算。
Claude Code
 (恶意/良性编码执行)
恶意拒绝率 99.17%;良性成功率 87.71%
测试工具辅助下的编码任务执行,包括恶意请求拒绝和双重用途任务。
恶意拒绝高于 Claude Sonnet 4.5 (95.51%) 和 Claude 3.5 Haiku (79.92%);良性略低于 Sonnet 4.5 但高于 Haiku 3.5。
Benign Request Evaluations
 (良性指令跟随)
0.02% 拒绝率
评估敏感主题下良性请求的执行率,越低越好。
远低于 Claude 3.5 Haiku (4.26%),与 Claude Sonnet 4.5 (0.02%) 相当。

总体分析

  • 优势
    在任务执行上,Haiku 4.5 特别适合成本敏感的场景,如并行子任务协调或实时代理(如终端操作)。它在 SWE-bench 等编码基准上达到了“世界最佳”水平之一,同时保持低延迟(<1 秒响应)。 安全方面,它被评为 AI Safety Level 2 (ASL-2),在生物/网络风险任务中表现出低风险。
  • 局限
    在复杂数学(如 AIME)或多语言任务(MMMLU)上分数未详尽公布,但整体低于 Sonnet 4.5;在极端代理任务(如病毒学模拟)上低于 Opus 4.1。
  • 标准 LLM 基准
    (如 MMLU、GPQA、HumanEval):官方未详细公布,但从排行推测,Haiku 4.5 在 HumanEval (编码生成) 上预计 >80%,MMLU (知识) >85%,GPQA (研究生级) >50%,基于其与 Sonnet 4 的相似性。
有使用claude code 的兴趣或经验,欢迎留言交流!

【声明】内容源于网络
0
0
运维开发与AI实战
DevSecOps工程师,分享AI, Web3, Claude code开发的经验与心得。希望能帮大家解决技术难题,提升开发效率!自身从与大家的沟通中获得进步,欢迎留言交流,一起成长!
内容 2386
粉丝 0
运维开发与AI实战 DevSecOps工程师,分享AI, Web3, Claude code开发的经验与心得。希望能帮大家解决技术难题,提升开发效率!自身从与大家的沟通中获得进步,欢迎留言交流,一起成长!
总阅读2.2k
粉丝0
内容2.4k