作者 | 木子
时至2026年初,AI行业已跨过“讲故事”阶段。吴恩达、斯坦福HAI研究院、谷歌云等机构近期发布的多份报告共同指向一个趋势:行业焦点正从“能不能做到”,转向“在什么条件下、以什么成本、为谁创造价值”。
斯坦福HAI明确提出:2026年是AI从“布道”(evangelism)走向“评估”(evaluation)的关键一年。
一方面,大量企业已完成首轮生成式AI部署,开始系统性复盘投入产出比。
谷歌云《The ROI of AI 2025》报告调研了3466家全球营收超千万美元的企业高管,指出:真正实现正向、可持续投资回报的,并非零散的生成式AI能力,而是“Agent + 流程 + 组织”的系统级落地。
数据显示,88%早期采用Agentic AI的企业已在至少一个GenAI场景中实现正向ROI,且收益持续扩大。
另一方面,AI加速渗透医疗、法律等高风险、高责任领域,“能力展示”已无法支撑关键决策。
吴恩达在《The Batch》新年特刊中直指“AGI”概念被严重滥用,并提出“图灵-AGI测试”,重构AI能力评估框架;斯坦福HAI联合计算机、医学、法律、经济学等领域学者,强调:2026年的核心命题是——“在什么场景下、以什么成本、替谁承担风险”。
Scaling Law 失效,AI评价体系正在重写
过去数年,“模型越大越强”的Scaling Law曾是行业默认共识。参数规模、榜单排名一度成为衡量进展最省事的标准。
但当AI进入医疗诊断、法律文书起草等真实高风险场景时,分数提升≠风险可控,能力增强≠系统可落地。
核心问题已不再是“模型还能不能更强”,而是现有评测体系是否匹配应用复杂度。
吴恩达指出,“AGI”已成为缺乏明确定义、更无统一评测的炒作术语。企业常以极低标准宣称“数月内实现AGI”,导致公众、学生、管理者对AI能力产生系统性误判,历史上的AI寒冬也多源于此。
为此,他提出“图灵-AGI测试”:延续图灵测试“由人判断是否达到人类水平”的逻辑,但将评估场景扩展至电话沟通、任务执行、成果交付、持续反馈等真实工作流,单次实验周期可达数天至数周。
相比AIME、GPQA等固定题型基准,该测试拒绝“对题训练”,关注的是AI能否在任务不预设、路径不可控、反馈动态变化的条件下,完成端到端闭环。
吴恩达直言:“如果所有AI当前都通不过,反而是件好事。”其意义不在筛选“通过者”,而在于为市场提供理性标尺——有通过即为强信号,无通过则需降温反思。
从能力账到经济账:AI真实价值如何衡量?
斯坦福HAI发布《Stanford AI Experts Predict What Will Happen in 2026》,明确指出:AI布道时代结束,严谨性、透明度与实用价值将成为新主线。
报告呼吁回归“经济账”三问:
- 企业为AI新增了多少成本?
- 节省的时间与人力,是否被新流程抵消?
- 维护、合规、算力、幻觉兜底等隐性成本是否被计入?
HAI学者观察发现:AI单点能力提升,并不必然带来整体效率提升。输出增多可能增加人工核查负担;写作提速或隐藏更隐蔽错误;表面省人实则引入协调成本。
因此强调:不能只测模型,必须测“人+AI+流程”整体系统。以法律领域为例,ROI、严谨性、多文档推理等指标正取代单纯的语言理解能力,成为核心评价维度。
关于AGI,HAI联合主任James Landay直言:“今年不会出现AGI。”但技术演进未止步——AI主权(AI Sovereignty)成为新焦点:核心不是模型大小,而是模型部署位置、数据掌控权归属。
HAI同时警示全球算力投资过热风险:超大规模数据中心建设加速,但若长期看不到回报拐点,热度本身即含泡沫意味。传播学副教授Angèle Christin更直呼:“Deflating the AI Bubble”(戳破AI泡沫),并呼吁更多关于AI“能做什么、不能做什么”的实证研究。
技术路径拐点:从大模型到Agent体系
当基础模型能力趋于饱和,AI发展重心已转向如何将其嵌入业务系统——即从“模型能力”跃迁至“Agent体系”。
谷歌《ROI of AI 2025》报告中,“Agent”或“Agentic”共出现118次;数据显示,52%使用GenAI的企业已将Agent投入生产环境。
真正产生正向ROI的场景集中于五类流程清晰、可规模化复制的领域:
- 生产力:减少重复劳动、压缩处理时间
- 客户体验:更快响应、更稳定交付
- 业务增长:缩短销售周期、提升转化效率
- 营销:规模化内容生成与投放优化
- 安全:减少误判、提前识别风险
这些场景共性在于:回报不来自模型“更聪明”,而来自Agent嵌入流程、替代人力、驱动闭环。
谷歌将Agent能力划分为三级:
- Level 1:生成式AI工具阶段——聊天、检索、单次输出;
- Level 2:真正意义上的Agent——理解目标、拆解任务、调用工具、完成端到端流程;
- Level 3:多Agent协同工作流——分工协作、系统编排,形成可调度、可扩展的“AI团队”。
目前绝大多数已验证ROI的Agent属Level 2形态,如客服Agent、销售支持Agent、内容运营Agent——特征是“单体Agent+明确流程”,成本可算、信任易建。
2026年Agent演进的关键,不是盲目堆叠智能体数量,而是提升可管理性:在清晰分工与规则约束下,实现多Agent稳定协同。
这要求能力拆解颗粒度更细、边界定义更清晰——即吴恩达倡导的Skill-First理念。
“Skill”即AI可调用、可复用、可验证、可监控的原子化能力模块,例如:一次搜索、一段文案生成、一次代码输出、一次审批判断、一次风控校验。
未来不是“多Agent协作”,而是Agent调度一组Skill:查资料调用搜索Skill,写文案启用生成Skill,遇风险触发审批或风控Skill。
当前跑出ROI的成功系统,往往并非最复杂的多Agent网络,而是Skill拆解精细、流程运转顺畅、责任链条清晰的Agent架构。
吴恩达的Skill-First思想,本质是反对模糊的“通用智能”叙事,主张构建可组合、可验证、可评估的能力单元——这也是其批判AGI滥用的核心逻辑:不拆解能力,就无法界定边界,更无法管控风险。
AI是一门长期生意。当故事讲完、潮水退去,最终留下的,只会是那些被长期运行、被持续信任的系统。

