大数跨境

断崖式下跌!最强AI也搞不定长周期开发:代码堆得越多,系统崩得越快

断崖式下跌!最强AI也搞不定长周期开发:代码堆得越多,系统崩得越快 DeepTech深科技
2026-04-05
9
导读:写一个函数,AI 几乎无敌;但维护一个系统,为何 AI 开始崩溃?

写一个函数,AI 几乎无敌;但维护一个系统,为何 AI 开始崩溃?

人工智能正进入"下半场"。随着AI编程能力提升和"CLI everything"趋势兴起,Agent已从单次任务工具转向长期运营、真实交互的复杂系统。然而,持续演进中AI能否保持能力稳定成为新挑战。

EvoClaw基准揭示能力断层

腾讯首席AI科学家姚顺雨指出,真实编程任务具有连续依赖性,但学界缺乏相应评估基准。近期,美国多所高校与OpenHands团队发布EvoClaw评估基准,通过开源项目代码演进历史,在同一代码库上要求Agent连续完成数十个相互依赖的功能迭代。

测试显示:顶尖模型在独立任务中得分超80%,但在长周期场景下断崖式下跌。Claude Opus 4.6综合得分仅38.03%,表明AI处理长周期软件演进仍存在显著差距。

图|EvoClaw综合性能总览

评测范式变革:从静态到持续演进

传统测评聚焦独立任务(如SWE-bench),在静态代码快照上验证。而真实开发具有动态性:微小bug经版本迭代可能演变为系统崩溃。研究团队创新性引入"里程碑(Milestone)"评估层级,重构兼具语义完整性和演进依赖的功能单元。

图|持续演进评测范式对比

DeepCommit流水线突破

团队开发DeepCommit自动化流水线,通过三阶段重构:Git历史预处理、Agent驱动DAG构建、里程碑环境配置,首次实现将杂乱的开发记录转化为可验证任务图。其关键创新在于:

  • 迭代式修复机制:动态分析报错日志调整Dockerfile
  • 隐式依赖补充:优化Milestone约束关系解决接口冲突
  • 正确率达87.1%:精准恢复测试用例

图|DeepCommit架构

长周期能力瓶颈显现

测试覆盖Python/Java/Go等五类语言项目,横跨750天开发周期。采用F1加权评分(召回率衡量功能完备性,精确率检测既有代码破坏程度),结果揭示:

  • 所有模型得分腰斩:Claude Opus 4.6(38.03%)、GPT 5.3 Codex(28.88%)
  • 存在能力天花板:即便延长开发窗口,最优模型饱和线仅45%
  • 家族性能差异:Claude/GPT随版本稳步提升;Gemini早期表现佳但长周期维护能力薄弱

错误链分析表明:模型实现新功能能力持续上升,但回归错误积累速度远超修复能力,最终陷入"技术债破产"。

图|错误链分布

行业启示与发展方向

EvoClaw为AI Harness调试提供通用评估平台。研究证实AI具有"实现新功能强于维护旧系统"的通用特性,这将推动软件形态变革:

  • 更强调灵活性与组件化设计
  • 适当放宽质量约束提升迭代吞吐量
  • 重点强化可复用基础设施建设

该研究验证AI长期编程能力随模型迭代稳定提升,未来或迎来量变到质变的突破。

【声明】内容源于网络
0
0
DeepTech深科技
DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
内容 5089
粉丝 0
DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
总阅读46.7k
粉丝0
内容5.1k