大数跨境
0
0

狂奔AGI,Claude年终封王!自主编码近5小时震惊全网

狂奔AGI,Claude年终封王!自主编码近5小时震惊全网 新智元
2025-12-21
4

AI编码智能体迎来关键突破:任务时长加速跃升

新智元报道

编辑:KingHZ

【导读】

AI是否已撞上天花板?METR最新报告显示:2019–2025年,AI编码智能体能持续完成的任务时长呈指数级增长——从分钟级跃升至小时级,且增速加快。Claude Opus 4.5已实现连续自主编码达4小时49分钟(50%成功率),创当前公开纪录,标志着AGI正从理论走向现实。

Claude Opus 4.5刷新任务时长纪录

METR最新报告指出,Claude Opus 4.5可在无干预状态下持续完成软件工程任务长达5小时不崩溃。相比之下,OpenAI最强编程模型GPT-5.1-Codex-Max的50%任务完成时间为2小时53分钟,仅为Opus 4.5的61%。

任务时长增速持续加快

AI编码智能体的任务完成能力并非线性提升,而是呈现加速趋势:

  • 2019–2024年:任务时长每7个月翻倍;
  • 2024–2025年:缩短至每4个月翻倍。

这一跃迁意味着AI正从「短跑选手」向「马拉松冠军」转变:任务跨度由「分钟级」迈向「小时级」,并持续加速。行业普遍认为,这是AGI落地最实质性的前兆之一。

衡量标准更新:50%任务完成时间跨度

为客观评估AI工程能力,METR于2025年3月提出新指标——「50%任务完成时间跨度」(50%-task-completion time horizon),即AI在50%概率下能成功完成一项任务所需的人类等效耗时。

该指标揭示出显著分化:

  • Claude Opus 4.5:4小时49分钟(当前最长公开纪录);
  • GPT-5.1-Codex-Max:2小时53分钟;
  • 对比o1模型,GPT-5.1-Codex-Max能力提升达4倍。

值得注意的是,Opus 4.5在80%成功率下的时间跨度仅27分钟,略低于GPT-5.1-Codex-Max的32分钟;但其50%与80%跨度之间差距更大,表明它在长周期、高复杂度任务中具备更优的鲁棒性与逻辑稳定性。

四大驱动因素:为何AI能越做越久

智能体任务时长跃升背后,是四大技术协同演进的结果:

  1. 推理更强:可将大任务动态拆解为子任务并规划执行路径;
  2. 工具更熟:熟练调用代码生成、网页检索、脚本执行等外部能力;
  3. 自纠错更稳:支持回滚、重试与流程续跑,保障长链任务连贯性;
  4. 收益非递减:模型精度微幅提升,即可显著扩展可胜任任务的时间跨度。

长期记忆:通向AGI的最后一道关卡

当任务跨度延伸至「工作日」甚至「数月」,现有AI系统面临三大瓶颈:

  • 上下文丢失:对话或任务越长,越难维持历史信息一致性;
  • 偏差累积:早期小错误随进程放大,导致结果失真;
  • 目标漂移:缺乏锚点约束,易偏离原始任务意图。

上述问题本质均指向同一核心挑战——长期记忆。当前主流方案仍属「拼装式」:

  • 强检索工具:依赖实时搜索(如代码库grep),非内生记忆;
  • 压缩塞入上下文:将历史摘要后重新输入,信息损耗严重。

即便RAG(检索增强生成)准确率已达约90%,上下文窗口持续扩大也仅缓解表层压力;真正制约AGI落地的,是底层架构缺失「自我学习」能力——无法像人类一样将短期经历转化为长期知识网络。

2026年关键突破方向:被动记忆系统

业界共识正在形成:未来12个月,「被动记忆」将成为AI研发核心战场。区别于需主动调用的“搜索式记忆”,真正强大的记忆系统应具备:

  • 无需检索、直接调用:经验内化为模型固有状态;
  • 支持持续学习:从交互中自动提炼偏好、教训与常识;
  • 具备遗忘与清理机制:应对「上下文腐烂」(context rot)。

OpenAI、Anthropic等头部团队已在推进ChatGPT与Claude的记忆功能升级;预计2026年春季,新一代多模态大模型将与专用记忆架构融合,首次实现「注意力之外的记忆系统」实质性落地。

AGI曙光已现:从工具到数字同事

当前AI能力已逼近AGI所需算力与智力阈值,唯一显著短板即长期记忆。一旦攻克,AI将不再只是响应指令的「工具」,而是:

  • 记住你的偏好与习惯;
  • 复盘过往项目中的典型问题;
  • 主动优化协作流程,提升下次效率。

这正是AGI在人类社会中最被期待的角色——一位「越用越聪明、与你共同成长的数字同事」。微型团队借助此类智能体,已在软件开发等领域实现数十人团队级产出,生产力跃升已成现实。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14630
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读80.1k
粉丝0
内容14.6k