2026 年伊始,DeepLearning.AI 创始人、斯坦福大学兼职教授吴恩达(Andrew Ng)在年度通讯《The Batch》新年特刊中提出关键问题:“2026 年会是我们最终实现 AGI 的一年吗?”他并未止步于设问,而是推出一套新评估框架——“Turing-AGI Test”(图灵-AGI 测试),以更务实的方式衡量 AI 是否真正具备通用智能。
Turing-AGI 测试:以“工作能力”为核心标准
该测试要求被试者(AI 或人类)在一台配备浏览器、Zoom 等常用软件并可联网的电脑前,完成数天真实工作体验。例如,先接受客服岗位培训,再接听真实客户来电,并全程接受动态反馈。若 AI 能如熟练人类员工般稳定执行任务,则视为通过。
吴恩达强调,“工作”是理解 AGI 的核心关键词——普通人所期待的 AGI,是能胜任大多数知识工作的系统。但当前部分企业宣称的“AGI 进展”,实则基于远低于此标准的狭义指标,导致认知错位与实践风险:有高中生因误判技术成熟度而放弃学科深耕;有 CEO 基于不切实际预期做出重大投资决策。
突破传统测试局限
吴恩达指出,经典图灵测试侧重“欺骗能力”,即让裁判无法分辨机器与人类。但历史表明,模拟打字错误等非智能行为反而更易“蒙混过关”。而当前 AI 发展的核心目标是创造具有经济价值的工作系统,因此,评估“能否做事”比“能否伪装”更具现实意义。
此外,主流 AI 基准测试(如 GPQA、AIME、SWE-bench)均依赖固定题库,模型可通过针对性调优提升分数,无法真实反映通用性。Turing-AGI 测试则由裁判自主设计任务场景,内容不提前披露,更接近真实世界对适应性、鲁棒性与持续学习能力的要求。
警惕炒作泡沫,回归建设主线
吴恩达提醒,过去数十年中,过度乐观的预期曾引发多轮“AI 寒冬”。当前 AI 虽处于强劲上升轨道,但资本狂热可能催生泡沫。Crunchbase 数据显示,2025 年全球 AI 领域融资达 2023 亿美元,同比激增 75%;高盛预计 2026 年 AI 资本支出将升至 5270 亿美元。
与此同时,MIT Media Lab 2025 年 8 月报告指出,企业在生成式 AI 上投入 300–400 亿美元,但 95% 的组织尚未获得任何实质性回报。OpenAI CEO 山姆·奥特曼亦公开表示,投资者整体上对 AI 过度兴奋。
吴恩达认为,若 Turing-AGI 测试竞赛中所有 AI 均未通过,反而是利好——有助于降温炒作、降低泡沫风险,为长期可持续投资铺平道路;而一旦有系统真正通关,则意味着其已超越营销概念,具备真实商业与社会价值。
六位专家展望 2026:开放、科学、教育、行动、医疗与连接
开源生态:开放才是稳定之基
IBM 研究院 AI 模型副总裁大卫・考克斯(David Cox)主张“真正的开源 AI”应不被任何单一实体控制,不绑定特定公司价值观。他类比 1990 年代 Linux 挑战微软的历史,批评当前部分“开放模型”虽发布权重,却隐瞒训练数据、限制商用收入,本质仍是封闭策略。
他强调地缘政治下模型易遭数据投毒,透明协作开发是解方。IBM 在斯坦福 AI 透明度指数中以 95% 排名第一。其观点落脚于务实:AI 不必惊艳,但需稳定可信。“让 AI 在 2026 年变得更开放、更怪异,也有一点更无聊。”
科学发现:从模仿到探索稀有模式
普林斯顿大学 Vertaix 实验室创始人阿吉・布索・迪恩(Adji Bousso Dieng)指出,当前深度学习主导范式“插值”擅长复现常见模式,却在罕见样本上失效。而物理与生物科学的重大挑战——如设计全新蛋白质、发现高效固碳材料——本质是“发现问题”,答案恰恰隐于分布边缘。
她呼吁将“多样性”提升为核心优化目标,而非次要评估项。唯有如此,AI 才能从人类知识的复刻者,进化为知识边界的共同拓展者。
教育变革:检测不如共建
微软首席数据科学家胡安・M・拉维斯塔・费雷斯(Juan M. Lavista Ferres)指出,AI 检测器在实验室表现良好,但现实场景中学生天然具备规避动机与能力。结构性矛盾在于:可检测 AI 内容的系统,同样可用于训练规避该检测的系统。
检测易误伤非英语母语者,且对高阶规避失效。他建议转向真实能力评估:现场考试、口头答辩,并将 AI 工具默认纳入作业设计流程。“精灵已出瓶,无法收回。”教育的关键不是禁止,而是重构。
行动智能:预测之外,更要执行
艾伦人工智能研究所高级研究科学家谭梅・古普塔(Tanmay Gupta)强调,预测模型 ≠ 行动系统。经济中有价值的任务,需在复杂动态环境中持续感知、决策、反馈、迭代。编程领域已见趋势:从代码补全,到能理解需求、检索代码库、运行测试、交付方案的 Agent。
这类目标导向系统需持久记忆、长期专注力、实时响应能力,以及应对模糊性、未知性与未定义任务的韧性——这正是下一阶段 AI 的前沿阵地。
生物医学:多模态需深度整合与可解释
加州大学圣地亚哥分校副教授彭涛・谢(Pengtao Xie)指出,当前生物医学多模态模型(文本、图像、序列联合推理)仍显碎片化、脆弱且难以解释。生物系统本质是多尺度、多视角的,基础模型须实现模态间深度语义融合,而非表面拼接。
可解释性是临床落地前提:医生不仅需要预测结果,更需知悉依据何在、证据来源。2026 年进展不应仅看基准分数,更应衡量其是否真正嵌入科研与诊疗工作流。
人机关系:从“一对一”走向“社群连接”
AMD 企业副总裁莎朗・周(Sharon Zhou)呼吁打破 AI 与用户的单点交互范式。当前互联网正滑向两极:一端充斥低质 AI 内容,另一端则尝试全面屏蔽大模型。她提出第三路径——设计能主动促成人际联结的 AI。
例如,在深夜倾诉人际关系困扰时,AI 可提议接入有相似经历的用户,并以启发式提问活跃对话,助用户自然建立联结、修复认知盲区、获得新视角。“好奇心在共享中加速”,若 AI 天生被设计为“撮合者”,人与技术皆可获益。
吴恩达在公开信结尾写道:“新年快乐,祝大家在新的一年里有一个美好的建设之旅。”在喧嚣的炒作声中,“建设”二字恰是 2026 年 AI 发展最坚实的主题——属于那些沉心打磨产品、深耕场景、交付真实价值的实践者。
图丨吴恩达(来源:MIT Technology Review)
图丨David Cox(来源:MIT-IBM Watson AI Lab)
图丨Adji Bousso Dieng(来源:Princeton Engineering)
图丨Juan M. Lavista Ferres(来源:Microsoft)
图丨Tanmay Gupta(来源:Medium)
图丨Pengtao Xie(来源:Pengtao Xie)
图丨Sharon Zhou(来源:MIT Technology Review)

