写一个函数,AI 几乎无敌;但维护一个系统,为何 AI 开始崩溃?
人工智能正进入"下半场"。随着AI编程能力提升和"CLI everything"趋势兴起,Agent已从单次任务工具转向长期运营、真实交互的复杂系统。然而,持续演进中AI能否保持能力稳定成为新挑战。
EvoClaw基准揭示能力断层
腾讯首席AI科学家姚顺雨指出,真实编程任务具有连续依赖性,但学界缺乏相应评估基准。近期,美国多所高校与OpenHands团队发布EvoClaw评估基准,通过开源项目代码演进历史,在同一代码库上要求Agent连续完成数十个相互依赖的功能迭代。
测试显示:顶尖模型在独立任务中得分超80%,但在长周期场景下断崖式下跌。Claude Opus 4.6综合得分仅38.03%,表明AI处理长周期软件演进仍存在显著差距。
图|EvoClaw综合性能总览
评测范式变革:从静态到持续演进
传统测评聚焦独立任务(如SWE-bench),在静态代码快照上验证。而真实开发具有动态性:微小bug经版本迭代可能演变为系统崩溃。研究团队创新性引入"里程碑(Milestone)"评估层级,重构兼具语义完整性和演进依赖的功能单元。
图|持续演进评测范式对比
DeepCommit流水线突破
团队开发DeepCommit自动化流水线,通过三阶段重构:Git历史预处理、Agent驱动DAG构建、里程碑环境配置,首次实现将杂乱的开发记录转化为可验证任务图。其关键创新在于:
- 迭代式修复机制:动态分析报错日志调整Dockerfile
- 隐式依赖补充:优化Milestone约束关系解决接口冲突
- 正确率达87.1%:精准恢复测试用例
图|DeepCommit架构
长周期能力瓶颈显现
测试覆盖Python/Java/Go等五类语言项目,横跨750天开发周期。采用F1加权评分(召回率衡量功能完备性,精确率检测既有代码破坏程度),结果揭示:
- 所有模型得分腰斩:Claude Opus 4.6(38.03%)、GPT 5.3 Codex(28.88%)
- 存在能力天花板:即便延长开发窗口,最优模型饱和线仅45%
- 家族性能差异:Claude/GPT随版本稳步提升;Gemini早期表现佳但长周期维护能力薄弱
错误链分析表明:模型实现新功能能力持续上升,但回归错误积累速度远超修复能力,最终陷入"技术债破产"。
图|错误链分布
行业启示与发展方向
EvoClaw为AI Harness调试提供通用评估平台。研究证实AI具有"实现新功能强于维护旧系统"的通用特性,这将推动软件形态变革:
- 更强调灵活性与组件化设计
- 适当放宽质量约束提升迭代吞吐量
- 重点强化可复用基础设施建设
该研究验证AI长期编程能力随模型迭代稳定提升,未来或迎来量变到质变的突破。

