大数跨境
0
0

吴恩达:图灵测试不够用了,我会设计一个AGI专用版

吴恩达:图灵测试不够用了,我会设计一个AGI专用版 量子位
2026-01-10
7
导读:降温AGI炒作
鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

新年新气象!AI领域权威专家吴恩达正式公布其2026年核心目标:推出面向通用人工智能(AGI)的全新评估体系——图灵-AGI测试

该测试专为衡量真正具备人类水平工作能力的AI系统而设计,旨在填补当前AGI定义模糊、基准测试失真等关键空白。

在2025年度总结中,吴恩达指出:“2025年或许将被历史铭记为人工智能工业时代的开端。”他强调,模型性能持续突破、AI应用深度融入生产环节、顶尖人才竞争加剧、基础设施投资拉动GDP增长,已成为全球共识。

2025年或许会被铭记为人工智能工业时代的开端

创新推动模型性能到达新的高度,AI驱动的应用变得不可或缺,顶尖企业人才争夺激烈,基础设施建设推动社会生产总值增长。

尽管AGI已成为学术界与产业界高频关键词,硅谷多家公司甚至将其纳入季度OKR,但行业至今缺乏公认的AGI定义和有效评估标准。现有主流基准(如GPQA、AIME、SWE-bench)普遍依赖固定题库,易被针对性优化,导致“刷榜”现象频发——典型如去年Llama 4榜单表现优异却实际落地乏力,严重误导公众认知。

要衡量智能,首先要定义智能。

图灵-AGI测试设想

传统图灵测试诞生于20世纪50年代,以人机对话欺骗性作为智能判据,已难以适配当下AI从“能聊”向“能干”演进的趋势。图灵-AGI测试聚焦核心命题:衡量AI完成经济有用知识型工作的能力

测试环境为一台配备浏览器、Zoom及互联网接入的标准计算机。裁判将为AI系统或人类专家设计多日连续的沉浸式体验任务——例如接受短期培训后担任客服,需真实接听电话并提供实时反馈。能否稳定、自主、高质量完成全流程任务,是判定通过的关键标准。

该测试强调两大特性:

  • 经济实用性:回归AGI本质定义——可部署于真实工作与生产场景的智能;
  • 通用性验证:任务由裁判动态生成,无预设范围,避免“应试训练”,更真实检验跨任务泛化能力。

相比封闭题库式基准,图灵-AGI测试更接近普适性智能的本质要求。吴恩达计划未来组织公开测试,邀请主流AI系统参与。即便短期内尚无系统达标,此举亦有助于校准社会预期、降温过度炒作,引导行业回归务实路径——聚焦非AGI级别的实用技术突破与高价值应用开发。

长远看,该测试将为AI研发设立清晰、可验证的目标:不再空谈“人类级智能”,而是以能否胜任复杂知识工作为标尺。一旦有系统通过,其成果必具真实生产力意义,成为AGI实质性突破的权威判据。

后续进展,值得持续关注。

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14606
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读107.5k
粉丝0
内容14.6k