断崖式下跌！最强AI也搞不定长周期开发：代码堆得越多，系统崩得越快- 大数跨境

DeepTech深科技

2026-04-05

导读：写一个函数，AI 几乎无敌；但维护一个系统，为何 AI 开始崩溃？

写一个函数，AI 几乎无敌；但维护一个系统，为何 AI 开始崩溃？

人工智能正进入"下半场"。随着AI编程能力提升和"CLI everything"趋势兴起，Agent已从单次任务工具转向长期运营、真实交互的复杂系统。然而，持续演进中AI能否保持能力稳定成为新挑战。

腾讯首席AI科学家姚顺雨指出，真实编程任务具有连续依赖性，但学界缺乏相应评估基准。近期，美国多所高校与OpenHands团队发布EvoClaw评估基准，通过开源项目代码演进历史，在同一代码库上要求Agent连续完成数十个相互依赖的功能迭代。

测试显示：顶尖模型在独立任务中得分超80%，但在长周期场景下断崖式下跌。Claude Opus 4.6综合得分仅38.03%，表明AI处理长周期软件演进仍存在显著差距。

图｜EvoClaw综合性能总览

传统测评聚焦独立任务（如SWE-bench），在静态代码快照上验证。而真实开发具有动态性：微小bug经版本迭代可能演变为系统崩溃。研究团队创新性引入"里程碑（Milestone）"评估层级，重构兼具语义完整性和演进依赖的功能单元。

图｜持续演进评测范式对比

团队开发DeepCommit自动化流水线，通过三阶段重构：Git历史预处理、Agent驱动DAG构建、里程碑环境配置，首次实现将杂乱的开发记录转化为可验证任务图。其关键创新在于：

图｜DeepCommit架构

测试覆盖Python/Java/Go等五类语言项目，横跨750天开发周期。采用F1加权评分（召回率衡量功能完备性，精确率检测既有代码破坏程度），结果揭示：

错误链分析表明：模型实现新功能能力持续上升，但回归错误积累速度远超修复能力，最终陷入"技术债破产"。

图｜错误链分布

EvoClaw为AI Harness调试提供通用评估平台。研究证实AI具有"实现新功能强于维护旧系统"的通用特性，这将推动软件形态变革：

该研究验证AI长期编程能力随模型迭代稳定提升，未来或迎来量变到质变的突破。

【声明】内容源于网络

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

内容 5089

粉丝 0

DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

总阅读46.7k

粉丝0

内容5.1k