新智元报道
新智元报道
【新智元导读】Greptile基于每月审核超十亿行代码的数据,发布《2025 AI编程年度报告》。报告显示AI显著提升代码产出量,但程序员对“效率提升”的实际感知存疑。
报告显示,工程师人均月提交代码行数从4450行升至7839行,增幅达76%;6–15人中型团队开发者提升达89%,接近翻倍。单次提交中每文件变更行数中位数亦上升20%(18→22行),反映迭代频率与复杂度同步提高。
然而,Y Combinator论坛讨论普遍持审慎态度:大量用户指出需耗费额外时间修复AI生成代码的缺陷;也有观点质疑——代码行数增长是否等同真实生产力提升?资深程序员常以极简代码实现复杂功能,而初级开发者可能用冗长逻辑完成简单任务。仅以提交量衡量效率,易忽视代码质量、重构价值及任务难度差异。
报告未涵盖代码删除率、重写频次等关键指标。有观点提出,“编辑行数”(增删各计1分)或比单纯统计新增行数更科学:每删一行代码,同样是技术价值的体现。
OpenAI仍居首位,但领先优势收窄
报告以SDK下载量为基准评估模型生态。OpenAI自2022年初近乎零起点,至2025年11月达1.3亿次下载,稳居第一;Anthropic同期增长1547倍,达4300万次,与OpenAI的份额比由47:1缩至4.2:1;Google GenAI同期下载量约1360万次,增速相对平缓。
在LLMOps层,LiteLLM下载量增长4倍至4100万次;LangSmith依托LangChain生态快速上位。模型调度、监控与降级能力正从“可选工具”升级为开发基建标配,其角色类比K8s之于微服务。
模型参数决定适用场景
报告实测五大主流编码模型在响应延迟、吞吐量与成本等维度表现:
- Claude Sonnet 4.5与Opus 4.5首token延迟均<2.5秒,显著优于GPT-5系(>5秒),更适合交互式编程(2秒为“心流”临界点);
- GPT-5-Codex与GPT-5.1吞吐量断崖领先,适用于CI/CD流水线中的批量代码生成与测试填充;
- Gemini 3 Pro首token延迟超10秒、输出速率低,不适宜实时交互场景。
报告还梳理了2025年基础模型与编程应用领域的关键研究进展:Self-MoA验证单模型多次采样+聚合可超越多模型混合,指向“推理路径多样性”替代“模型多样性”;Search-R1通过强化学习训练模型自主决策搜索时机,将搜索引擎转化为可学习的动作空间;RetroLM则直接在KV缓存层检索,重构大模型记忆组织机制。
需强调的是:所有AI编程工具的使用数据,均无法覆盖人工审查环节。唯有证实AI工具能缩短功能上线周期,而非仅增加过审代码量,其实际业务价值才更具说服力。


