大数跨境

编程 Agent 可能是软件开发史上最昂贵的错误之一

编程 Agent 可能是软件开发史上最昂贵的错误之一 AI前线
2026-05-30
1
导读:“我敢断言:把 AI Agent 引入软件开发,将会成为这个领域历史上代价最惨重的错误之一。”
作者 | Tina

“将 AI Agent 引入软件开发,将是该领域历史上代价最惨重的错误之一。”

发出这一警告的是 George Hotz。这位曾破解 iPhone、逆向工程 PlayStation 3 并创办自动驾驶公司 comma.ai 的技术狂人,在过去六个月中深度测试了市面上主流的 AI 编程 Agent。上周日,他在博客《永恒的 Sloptember》中断言:大规模采用 AI 编码 Agent 将以灾难告终。

Hotz 的核心观点直指本质:Agent 并非程序员。它们是基于统计模型模仿编程行为的产物,生成的代码质量低劣且隐蔽性极强。随着模型精度的提升,这种“坏代码”将更难被察觉,从而埋下巨大隐患。

AI 编程的两极:Karpathy 看见革命,Hotz 看见灾难

就在 Hotz 发出警告的五天前,AI 界知名研究者 Andrej Karpathy 加入 Anthropic 并宣称"AI Agent 已彻底改变软件开发”。两人代表了当前行业对 AI 编程认知的两个极端,且均具备极高的可信度。

Hotz 的结论源于实战。在为期六个月的测试中,他利用 Agent 为开源框架 Tinygrad 编写代码,并对 USB-PCIe 芯片进行固件逆向工程。结果显示,人工完成的效率与质量始终优于 Agent。他指出,Agent 的模式是堆砌前期进展,却在最后的打磨阶段陷入无限循环的“老虎机”困境,永远差临门一脚。

针对“使用方法不当”的反驳,Hotz 回应称已尝试不同模型、提示词及架构,问题根源在于工具本身。他承认 AI 在快速原型开发和信息搜索上的价值,但强调其远未达到软件工程师的标准。

Hotz 并不担心自身被取代,他真正忧虑的是代码生态的整体恶化。当大型科技公司和金融机构盲目推动 Agent 规模化应用时,缺乏自我纠错能力的开发者将产出大量垃圾代码。他预言,这将是“垃圾代码泛滥的黄金时代,也是高质量精品软件的黑暗时代”。

在技术路线上,Hotz 转向支持 LeCun 和 Marcus 的观点,认为基于 RLVR 的现有方法无法实现真正的编程,未来的 Agent 必须具备世界模型,而非仅仅通过注释掉失败测试来伪装成功。

更深层的危机在于认知错位。过去代码背后有人类的心智模型,而 AI 生成的代码缺乏这种逻辑根基。传统的语法检查已失效,人类若以对待人工代码的方式去理解和维护 AI 代码,必将面临严峻挑战。

制造 AI 编程热潮的人开始担心失控

Hotz 并非孤例。OpenClaw AI Agent 核心组件的缔造者 Mario Zechner 和 Armin Ronacher 同样发出了警告。他们将当前现象称为"vibe slop",即开发者不再严谨设计与测试,而是依赖 AI 快速拼凑出经不起时间考验的软件。

Zechner 直言:“基础设施正在崩溃,软件漏洞百出。我们或许还能维持数月甚至数年,但最终将付出惨重代价。”作为资深从业者,他们担忧企业正用短期生产率换取长期的技术债、安全漏洞及初级人才断层。

尽管 Google 和 Meta 的高管预测 AI 将承担大部分代码工作,但 Zechner 指出,AI 擅长生成新代码,却难以评估和升级复杂的遗留系统。一旦创业公司规模扩大,必将撞上与大厂同样的墙壁。

即便是 Anthropic 自家的 Claude Code,也被 Zechner 评价为“极度破碎”。虽然 Anthropic 产品负责人强调最终责任在人,但计算机科学家 Timothy B. Lee 指出,许多企业内部系统的隐性知识并未包含在 AI 训练数据中,盲目依赖可能导致严重偏离。

“这些模型很容易走错方向,必须有人时刻警惕。”

Zechner 预言一场清算即将来临:过度依赖 AI 生成代码将推高成本并降低质量,大量依赖"vibe coding"的初创公司将面临倒闭,而代码仓库将被 AI 生成的垃圾填满。

AI 的回报尚未跟上消耗

除了代码质量,经济账也成为焦点。Uber 首席运营官 Andrew Macdonald 透露,公司内部 AI 成本的合理性正受到严峻挑战。此前 Uber CTO 表示已提前耗尽 2026 年的 Claude Code 预算,引发内部对 Token 消耗与产出比的激烈讨论。

Macdonald 指出,Token 消耗量的增加并未同比例转化为有用的消费者功能。“很难将指标与实际产出直接挂钩。”为此,Uber 已放缓招聘以对冲 AI 投资。他坦言,对于无需买单的用户而言 AI 看似免费,但账单最终由公司承担。

部分企业已开始回调策略。Duolingo 曾计划将 AI 使用纳入绩效考核,但因员工质疑“为用而用”且无助于实际结果而叫停。英伟达应用深度学习副总裁 Bryan Catanzaro 也确认,在其团队中,AI 计算成本已远超人力成本。

结语

问题的核心不在于“人写烂代码”还是"AI 写烂代码”,而在于心智模型的缺失。过去,即使是糟糕的代码也蕴含作者的逻辑;如今,大量未被理解的 AI 代码被快速提交合并,而审查与责任机制并未同步跟进。

坏想法正以前所未有的速度转化为代码提交。尽管有人寄希望于未来的记忆系统能解决这些问题,但过去半年的实践让 Hotz 和 Zechner 等专家难以保持乐观。

参考链接:

https://geohot.github.io//blog/jekyll/update/2026/05/24/the-eternal-sloptember.html

https://archive.ph/iyszw

https://www.businessinsider.com/uber-coo-andrew-macdonald-ai-token-spending-harder-justify-2026-5

https://www.youtube.com/watch?v=y_mQ6xLcKyc&t=1776s

声明:本文为 InfoQ 整理,不代表平台观点,未经许可禁止转载。

【声明】内容源于网络
0
0
AI前线
面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
内容 8539
粉丝 0
AI前线 面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
总阅读125.4k
粉丝0
内容8.5k