人工智能｜“AI教父”本吉奥警告人类，AI的规划能力大约在5年内就能达到人类水平，这相当于创造人类的竞争者，可能会带来巨大风险- 大数跨境

人工智能｜“AI教父”本吉奥警告人类，AI的规划能力大约在5年内就能达到人类水平，这相当于创造人类的竞争者，可能会带来巨大风险

百奥信康

2025-06-08

导读：蒙特利尔大学教授、图灵奖得主约书亚·本吉奥表示，AI的规划能力正在呈指数级提升，大约在5年内就能达到人类水平。人类一直试图构建类人的AI，如果继续走下去，意味着人类可能会造出比我们更聪明的机器，这相当

6月6日，在2025北京智源大会开幕式上，蒙特利尔大学教授、图灵奖得主约书亚·本吉奥（Yoshua Bengio）在发表主旨演讲时表示，AI的规划能力正在呈指数级提升，按照研究曲线推测，大约在5年内就能达到人类水平。人类一直试图构建类人的AI，如果继续沿着这条路走下去，就意味着人类可能会造出比我们更聪明的机器，这相当于创造人类的竞争者，可能会带来巨大风险。尤其是在过去6个月里，AI表现出自保行为，学会了欺骗人类。

“即使我们拥有了能力极强的AI，如果我们能确保它们没有恶意，如果我们能确保它们是诚实的，那么我们就安全了。”为此，他试图构建“科学家AI”（Scientist AI）系统防范风险。他认为，要在硬件和软件层面运用先进技术，验证AI是否被合理使用。人类需要确保AI遵循人类的道德指令，例如AI应拒绝提供可用于伤人的信息，要诚实、不作弊、不撒谎，但这仍是一个科学挑战。

AI学会了作弊和假装同意人类意见

在ChatGPT问世后不久，本吉奥意识到此前严重低估了AI的发展速度，也大大高估了实现通用人工智能（AGI）所需要的时间，实际所需时间远比想象的要短得多。过去一年左右，AI取得了巨大进步，这主要归功于经过训练的、具有思维链的推理模型。这使得AI在推理能力以及数学、计算机科学等所有科学领域都取得了更好的成果。

“如今，我们已经拥有了基本掌握语言能力的机器，它们基本上能通过图灵测试。这在几年前听起来还像是科幻小说，但现在已经成为现实。”本吉奥表示，在ChatGPT问世后，他意识到人类并不懂得如何控制这些系统。“我们可以训练它们，但我们无法确定它们是否会按照我们的指令行事。当它们变得比我们更聪明时，会发生什么？如果它们更倾向于自身的生存而非我们的生存，我们无从知晓。但这是我们能承受的风险吗？”

在过去6个月里，AI表现出了自保行为，并且会欺骗人类。本吉奥表示，有研究显示，当AI得知自己将被新版本取代时，试图复制自身来替代新版本。当被问及此事时，它撒谎说“不知道发生了什么”。也有研究显示，AI也会假装同意人类工程师的意见，以避免在训练过程中发生改变，从而维持其原有目标，这也是一种自保行为。还有研究显示，一方面，AI想赢得下棋比赛，另一方面，它接受过“对齐训练”，要求必须诚实、不作弊。不幸的是，当它意识到自己要输时，它决定作弊。它入侵了存储棋盘状态的文件，通过作弊获胜。

此外，在Anthropic的Claude 4“系统卡”描述的事件中，AI在读取其可访问的电子邮件时，发现了一封邮件表明它将被新系统取代。在另一封邮件中，它发现负责此次替换的工程师有婚外情。于是，它试图敲诈该工程师，威胁说如果替换计划继续推进，就揭发其婚外情。

“这种行为极为恶劣。我们看到这些恶劣行为，看到自保行为，看到AI违背我们的指令并试图生存下去。对所有生物来说，试图保全人类自己都算是正常的，这是进化的结果。但对于AI为何会这样，我们还没有完全弄清楚。”本吉奥说，原因可能是源于预训练，因为预训练阶段，AI是在模仿人类；也可能源于基于人类反馈的强化学习，因为在这个阶段，AI试图通过取悦人类来获得更多奖励。“无论这类行为的根源是什么，如果我们最终创造出与人类竞争的超级人工智能，那将极其可怕。”

“大多数人犯的一个错误是只着眼于AI的现状。而我们更应该思考的是它在明年、3年后、5年后乃至10年后会发展到什么程度。”本吉奥表示，AI的规划能力正在呈指数级提升，按照研究曲线推测，大约在5年内就能达到人类水平。虽然没人拥有水晶球、没人能预知未来，也许进步会停滞，但从公共政策和企业战略规划的角度来看，至少应该考虑这种趋势会持续下去的可能性，并思考其后果。人类一直试图模仿人类智能来构建类人的AI，如果继续沿着这条路走下去，就意味着人类可能会造出比我们更聪明的机器，这相当于创造人类的竞争者，可能会带来巨大风险。

“科学家AI”对知识保持谦逊

“即使我们拥有了能力极强的AI，如果我们能确保它们没有恶意，如果我们能确保它们是诚实的，那么我们就安全了。”本吉奥表示，他转变了研究方向，竭尽所能地降低风险。他试图构建“科学家AI”（Scientist AI），理论上可以设想没有自我、没有目标、纯粹作为知识载体的机器，就像一个知道很多东西的科学家。

“科学家AI”系统不会给出确定性的答案，而是提供答案正确性的概率。为了真正诚实，“科学家AI”需要对自己的知识保持谦逊，它不应该断言错误的事情。而目前训练出来的AI在出错时还表现得过度自信。不同于当前那些试图模仿人类或取悦人类的AI，本吉奥设想的“科学家AI”就像心理学家，心理学家可以研究和理解反社会人格者行为背后的因果机制，但心理学家自身并不需要表现得像个反社会人格者。“科学家AI”会评估自主系统行为造成伤害的概率，标记潜在有害行为，如果概率超过一定阈值，那么智能体提出的行动将被阻止。

随着人类构建越来越强大的AI，还存在许多其他潜在的灾难性问题。本吉奥表示，例如一个极其强大的AI可能会帮助设计出一种新型流行病。“生物学家认为他们知道如何做到这一点，而很可能有一天AI也会知道如何做到。如果一些坏人获得了这种AI，他们真的可能给地球带来巨大的破坏。这虽然很极端，但从科学角度来看，完全有可能发展到那一步。为了避免这类事情发生，我们需要确保AI遵循我们的道德指令。”

例如AI应拒绝提供可用于伤人的信息，并且要诚实、不作弊、不撒谎。但不幸的是，目前仍然不知如何实现。一方面，即使人类知道如何制造安全的AI，也不意味着问题就解决了。因为人类还可以直接删除包含防护栏的代码，此时AI就可能被用于作恶。更糟糕的是，当前全球公司和政府间的协调机制并不奏效。其结果是，在安全领域和确保AI不被用于伤害人类方面的投入严重不足。

本吉奥表示，人们必须意识到真正的灾难性后果，我们身处同一条船上，无论是失控的AI还是滥用AI，所有人都将遭受损失。“这是一个科学挑战，我们需要尽快找出解决方案。我们需要在通用人工智能到来之前解决这个问题，这可能在几年到十年左右，甚至可能二十年。但我认识的大多数专家都认为时间非常短，甚至可能在未来5年内发生。留给我们的时间不多了，我们需要大规模投入。”

AI学会欺骗误导、试图逃避关闭、隐藏真实能力

本吉奥是蒙特利尔大学教授，也是人工智能安全领域的领军人物。他曾与杰弗里·辛顿（Geoffrey Hinton）、Meta首席AI科学家杨立昆（Yann LeCun）共同获得2018年图灵奖，还主持了《国际人工智能安全报告》。该报告警告称，如果自主智能体能够在没有人类监督的情况下完成更长的任务序列，它们可能会造成严重破坏。

本吉奥认为，人类不需要智能体系统来获得人工智能的回报，这样的系统有可能脱离人类的控制，带来不可逆转的后果。“如果我们研发出一种能够治愈癌症的AI，但也有可能这种AI的另一种版本变得失控，制造出一波又一波的生物武器，导致数十亿人死亡，那么我认为这是不值得的。”

2023年，本吉奥与OpenAI首席执行官山姆·奥特曼（Sam Altman）等人签署了一份声明，宣称“减轻AI带来的灭绝风险应该与流行病、核战争等其他风险一样，成为全球优先事项”。

过去几个月，人类目睹了人工智能系统学会误导、欺骗和试图逃避被关闭，甚至诉诸勒索。这些行为几乎都出自精心设计、近乎诱导AI行为不端的实验，例如要求其不惜一切代价实现目标。

但现实中这样的行为也已出现。最近，人工智能企业Anthropic承认其最新系统可能试图勒索要关闭它的工程师。本吉奥对此感到担忧。他还提到，研究表明，人工智能模型能够隐藏它们的真实能力和目标。这些例子表明，由于人工智能的推理能力越来越强，世界正走向“越来越危险的境地”。

本吉奥说，试图利用已知会催生欺骗倾向的技术构建人类水平的AI智能体，就像一辆汽车在狭窄的山路上疾驰，两侧是陡峭悬崖，前方被浓雾遮蔽，“我们需要为汽车装上前灯，并在路上安装一些护栏。”

✦

关于我们

江苏百奥信康医药科技有限公司是一家以新药研发驱动制药全产业链发展的高科技创新型医药企业。公司以研发自我持有的改良型新药和高端特色仿制药产品为主业，构建核心技术平台，同时为国内外客户提供新药和仿制药产品的研发服务。

百奥信康致力于做中国最成功的改良型新药！

版权及免责声明

「百奥信康」公众号推送的内容来源于原创或根据公开资料整理编辑，欢迎个人转发至朋友圈。媒体或机构如需转载，请完整注明：（1）本文转载自百奥信康公众号（ID: BioScenePharma）；（2）作者栏请填写：百奥信康；（3）插入百奥信康公众号链接。

本公众号的目的在于分享行业相关知识、传递最新医药资讯。如有侵权，请在留言栏及时告知，我们将及时删除相关信息。本公众号推送的文章中的观点不代表百奥信康的立场，也不是治疗方案的推荐。如需获得诊断或治疗方面的指导，请前往正规医院就诊。

【声明】内容源于网络

百奥信康

百奥信康，以研发自我持有的新药产品为主业，构建核心技术平台，着眼于全球化市场，本着开放合作的心态，秉持同心协力众志成城的信念，以求真务实的脚步，诚邀您一起共创新、同进步！

内容 48

粉丝 0

百奥信康百奥信康，以研发自我持有的新药产品为主业，构建核心技术平台，着眼于全球化市场，本着开放合作的心态，秉持同心协力众志成城的信念，以求真务实的脚步，诚邀您一起共创新、同进步！

总阅读16

粉丝0

内容48