“波将金式理解”
冲击大语言模型
AGI 未来发展面临哪些挑战?
在人工智能的快速发展进程中,大语言模型(LLM)近年来备受瞩目,展现出了令人惊叹的文本生成和语言处理能力。然而,围绕 LLM 是否真的 “理解” 语言、能否通向通用人工智能(AGI)的讨论一直激烈。近期,著名人工智能学者和认知科学家 Gary Marcus 转推的一篇由 MIT、芝加哥大学、哈佛大学合著的论文,再次将这一争议推到了风口浪尖。
Gary Marcus 在转推中直言,对于 LLM 及其所谓能理解和推理的神话来说,情况变得更糟了。他认为该研究揭示的问题宣告了任何试图在纯粹 LLM 基础上构建 AGI 希望的终结,甚至还 @了 Geoffrey Hinton,称后者要失败。这一言论在评论区引发了轩然大波。有人询问他是否认可 LLM 越来越好,他虽持肯定态度,但也指出它们有可能来到了收益递减的点。还有人认为,我们不需要 LLM 理解,只要表现好就行,毕竟人类也并非总是能理解。谷歌 DeepMind 资深科学家 Prateek Jain 也现身评论区,表示论文及其评估方法和基准测试很有意思,并通过 Gemini 2.5 Pro 对论文中的例子进行测试,结果都答对了,他好奇该模型在完整测试集上的表现以及出错的具体例子。也有人质疑论文只是描述了 LLM 一种已知的实效模式,不明白为何得出 “注定失败” 的结论。那么,这篇论文究竟有何惊人发现呢?
论文标题为 “Potemkin Understanding in Large Language Models”,提出了一个重要质疑:仅仅依据 LLM 在精心挑选的基准数据集上的回答,能否合理推断其能力?因为这些用于测试 LLM 的基准,原本是为评估人类设计的。只有当 LLM 对概念的误解方式与人类相似时,这些基准才能有效测试其能力,否则,模型在基准上的高分可能只是展现了一种 “波将金式理解”,即看似正确的回答,实则掩盖了与人类对概念真正理解之间的巨大差距。
为了量化 “波将金现象” 的存在,论文提出了两种方法。一种是基于针对文学技巧、博弈论和心理偏差三个不同领域特制的基准;另一种是通用程序,可提供其普遍性下限的估计。
论文构建了一个涵盖上述三个领域、涉及 32 个概念、共收集 3159 条标注数据的数据集。通过对 7 个因流行度及涵盖不同开发商和规模而被选中的大型语言模型进行分析,研究团队发现,即使模型能够正确定义一个概念,在分类、生成和编辑等需要应用概念的任务中,往往也无法准确执行。研究团队测量了模型的波将金率,即模型在基石示例上做出正确回答的前提下,在随后问题上回答错误的比例(对于随机准确率为 0.50 的任务,将该值乘以 2,波将金率为 1 表示表现相当于随机水平)。结果显示,在所有模型和领域中,波将金率普遍较高。虽然模型在 94.2% 的情况下能正确定义概念,但在执行任务时表现急剧下降,这表明波将金现象在研究分析的所有模型、概念和领域中无处不在。
为了探究造成波将金式理解的原因,研究团队进一步测试了模型内部的概念不一致性。他们通过两步来衡量:首先提示模型生成某一特定概念的实例或非实例,然后将模型生成的输出重新提交给模型,询问该输出是否确实是该概念的实例。例如在斜韵的例子中,测试模型能否认出自己生成的示例是否属于斜韵。研究结果表明,在所有检查的模型、概念和领域之间存在不一致性,得分范围从 0.02 到 0.64,虽然好于随机情况,但仍表明模型在一致性评估自身输出方面存在实质性局限,意味着概念误解不仅源于对概念的错误理解,还源于使用的不一致。
Gary Marcus 在仔细研读论文后,认为其核心观点正确,即 LLM 确实容易产生各种自相矛盾,如 “波将金式错误”。但他觉得论文中的具体实验例子说服力不够强。基于自己之前的非正式实验观察(包括下周将公布的一个例子),他确信存在真正的问题,但要弄清楚问题的普遍性及对不同类型模型的影响程度,还需更深入研究。他还指出,像 o3 这类模型似乎较不容易陷入简单的 “波将金式错误”,但并非完全免疫。例如模型能正确阐述俳句的定义,却错误断言 “asphalt shimmers” 符合俳句末行应为五音节的要求,直到后续追问才勉强承认错误,这再次印证了模型缺乏可靠性的根本缺陷。
从更宏观的视角来看,大语言模型近年来虽然取得了显著进展,但距离实现通用人工智能仍有很长的路要走。当前的大语言模型主要基于大规模数据训练和复杂的神经网络架构,通过对大量文本的学习来生成回应。然而,这种方式是否能真正让模型理解语言背后的含义和逻辑,一直存在争议。与人类的学习和理解方式相比,大语言模型缺乏对世界的真实感知和体验,难以建立起像人类那样丰富而深刻的概念体系。它们在面对需要深入理解和推理的复杂问题时,往往表现出局限性。
这篇论文的研究结果为我们敲响了警钟,让我们更加清醒地认识到 LLM 存在的问题。它不仅挑战了我们对当前大语言模型能力的认知,也对未来人工智能的发展方向提出了重要思考。如果我们希望实现通用人工智能,仅仅依靠基于大规模数据训练的大语言模型可能是不够的,或许需要探索新的技术路径和方法,将知识表示、推理能力、感知体验等多种要素有机结合起来,赋予模型更强大的理解和处理复杂问题的能力。
此外,该研究对于人工智能的应用也具有重要意义。在许多领域,如医疗、金融、法律等,对准确性和可靠性要求极高。如果大语言模型存在 “波将金式理解” 的问题,那么在这些领域的应用可能会带来严重的后果。因此,在将大语言模型应用于实际场景时,我们需要更加谨慎地评估其性能和可靠性,避免因模型的错误理解和推理而导致不良影响。
总的来说,这篇论文引发的讨论不仅仅关乎大语言模型本身,更涉及到人工智能未来的发展方向。虽然目前大语言模型展现出了巨大的潜力,但要实现通用人工智能这一宏伟目标,我们仍需面对诸多挑战,不断探索和创新。或许正如 Gary Marcus 所暗示的,我们需要重新审视和思考当前的技术路径,寻找更有效的方法来突破现有的局限,让人工智能真正走向通用、智能的未来。 我们期待看到更多的研究和实践,能够为解决这些问题提供新的思路和方案,推动人工智能技术迈向更高的台阶。
END

