AGI 凉了？吴恩达、斯坦福、谷歌云罕见同频：AI 测评逻辑正被 Agent 颠覆- 大数跨境

首页

AGI 凉了？吴恩达、斯坦福、谷歌云罕见同频：AI 测评逻辑正被 Agent 颠覆

AI前线

2026-02-28

导读：AI是一门长期生意

作者 | 木子

时至2026年初，AI行业已跨过“讲故事”阶段。吴恩达、斯坦福HAI研究院、谷歌云等机构近期发布的多份报告共同指向一个趋势：行业焦点正从“能不能做到”，转向“在什么条件下、以什么成本、为谁创造价值”。

斯坦福HAI明确提出：2026年是AI从“布道”（evangelism）走向“评估”（evaluation）的关键一年。

一方面，大量企业已完成首轮生成式AI部署，开始系统性复盘投入产出比。

谷歌云《The ROI of AI 2025》报告调研了3466家全球营收超千万美元的企业高管，指出：真正实现正向、可持续投资回报的，并非零散的生成式AI能力，而是“Agent + 流程 + 组织”的系统级落地。

数据显示，88%早期采用Agentic AI的企业已在至少一个GenAI场景中实现正向ROI，且收益持续扩大。

另一方面，AI加速渗透医疗、法律等高风险、高责任领域，“能力展示”已无法支撑关键决策。

吴恩达在《The Batch》新年特刊中直指“AGI”概念被严重滥用，并提出“图灵-AGI测试”，重构AI能力评估框架；斯坦福HAI联合计算机、医学、法律、经济学等领域学者，强调：2026年的核心命题是——“在什么场景下、以什么成本、替谁承担风险”。

Scaling Law 失效，AI评价体系正在重写

过去数年，“模型越大越强”的Scaling Law曾是行业默认共识。参数规模、榜单排名一度成为衡量进展最省事的标准。

但当AI进入医疗诊断、法律文书起草等真实高风险场景时，分数提升≠风险可控，能力增强≠系统可落地。

核心问题已不再是“模型还能不能更强”，而是现有评测体系是否匹配应用复杂度。

吴恩达指出，“AGI”已成为缺乏明确定义、更无统一评测的炒作术语。企业常以极低标准宣称“数月内实现AGI”，导致公众、学生、管理者对AI能力产生系统性误判，历史上的AI寒冬也多源于此。

为此，他提出“图灵-AGI测试”：延续图灵测试“由人判断是否达到人类水平”的逻辑，但将评估场景扩展至电话沟通、任务执行、成果交付、持续反馈等真实工作流，单次实验周期可达数天至数周。

相比AIME、GPQA等固定题型基准，该测试拒绝“对题训练”，关注的是AI能否在任务不预设、路径不可控、反馈动态变化的条件下，完成端到端闭环。

吴恩达直言：“如果所有AI当前都通不过，反而是件好事。”其意义不在筛选“通过者”，而在于为市场提供理性标尺——有通过即为强信号，无通过则需降温反思。

从能力账到经济账：AI真实价值如何衡量？

斯坦福HAI发布《Stanford AI Experts Predict What Will Happen in 2026》，明确指出：AI布道时代结束，严谨性、透明度与实用价值将成为新主线。

报告呼吁回归“经济账”三问：

企业为AI新增了多少成本？
节省的时间与人力，是否被新流程抵消？
维护、合规、算力、幻觉兜底等隐性成本是否被计入？

HAI学者观察发现：AI单点能力提升，并不必然带来整体效率提升。输出增多可能增加人工核查负担；写作提速或隐藏更隐蔽错误；表面省人实则引入协调成本。

因此强调：不能只测模型，必须测“人+AI+流程”整体系统。以法律领域为例，ROI、严谨性、多文档推理等指标正取代单纯的语言理解能力，成为核心评价维度。

关于AGI，HAI联合主任James Landay直言：“今年不会出现AGI。”但技术演进未止步——AI主权（AI Sovereignty）成为新焦点：核心不是模型大小，而是模型部署位置、数据掌控权归属。

HAI同时警示全球算力投资过热风险：超大规模数据中心建设加速，但若长期看不到回报拐点，热度本身即含泡沫意味。传播学副教授Angèle Christin更直呼：“Deflating the AI Bubble”（戳破AI泡沫），并呼吁更多关于AI“能做什么、不能做什么”的实证研究。

技术路径拐点：从大模型到Agent体系

当基础模型能力趋于饱和，AI发展重心已转向如何将其嵌入业务系统——即从“模型能力”跃迁至“Agent体系”。

谷歌《ROI of AI 2025》报告中，“Agent”或“Agentic”共出现118次；数据显示，52%使用GenAI的企业已将Agent投入生产环境。

真正产生正向ROI的场景集中于五类流程清晰、可规模化复制的领域：

生产力：减少重复劳动、压缩处理时间
客户体验：更快响应、更稳定交付
业务增长：缩短销售周期、提升转化效率
营销：规模化内容生成与投放优化
安全：减少误判、提前识别风险

这些场景共性在于：回报不来自模型“更聪明”，而来自Agent嵌入流程、替代人力、驱动闭环。

谷歌将Agent能力划分为三级：

Level 1：生成式AI工具阶段——聊天、检索、单次输出；
Level 2：真正意义上的Agent——理解目标、拆解任务、调用工具、完成端到端流程；
Level 3：多Agent协同工作流——分工协作、系统编排，形成可调度、可扩展的“AI团队”。

目前绝大多数已验证ROI的Agent属Level 2形态，如客服Agent、销售支持Agent、内容运营Agent——特征是“单体Agent+明确流程”，成本可算、信任易建。

2026年Agent演进的关键，不是盲目堆叠智能体数量，而是提升可管理性：在清晰分工与规则约束下，实现多Agent稳定协同。

这要求能力拆解颗粒度更细、边界定义更清晰——即吴恩达倡导的Skill-First理念。

“Skill”即AI可调用、可复用、可验证、可监控的原子化能力模块，例如：一次搜索、一段文案生成、一次代码输出、一次审批判断、一次风控校验。

未来不是“多Agent协作”，而是Agent调度一组Skill：查资料调用搜索Skill，写文案启用生成Skill，遇风险触发审批或风控Skill。

当前跑出ROI的成功系统，往往并非最复杂的多Agent网络，而是Skill拆解精细、流程运转顺畅、责任链条清晰的Agent架构。

吴恩达的Skill-First思想，本质是反对模糊的“通用智能”叙事，主张构建可组合、可验证、可评估的能力单元——这也是其批判AGI滥用的核心逻辑：不拆解能力，就无法界定边界，更无法管控风险。

AI是一门长期生意。当故事讲完、潮水退去，最终留下的，只会是那些被长期运行、被持续信任的系统。

【声明】内容源于网络

AI前线

面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。

内容 8123

粉丝 0

AI前线面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。

总阅读84.9k

粉丝0

内容8.1k