想象一下,你正在用一个强大的AI助手做决策,它给出了一个看似完美、逻辑严密的答案。你会毫不犹豫地相信它吗?但是,如果这个AI“内心”并没有那么确定,而你却被它“天花乱坠”的解释说服了,这会不会带来风险?
最近发表在《Nature Machine Learning》上的一项研究,深入探讨了大型语言模型(LLMs)的“自信”与人类对其理解之间的“鸿沟”。这篇研究揭示了一个令人担忧的现象:用户往往高估了LLM答案的准确性,尤其是在LLM提供了默认解释的情况下
为了衡量LLMs的“自信”以及人类对这种自信的感知,研究人员引入了两个关键概念:
校准鸿沟(Calibration Gap):指的是人类对LLM生成答案的信心与模型实际信心之间的差异。简单来说,就是LLM觉得自己有多大把握,和人类觉得LLM有多大把握之间的差距。研究发现,当LLM提供默认解释时,校准鸿沟显著存在,人类的信心远高于模型的实际准确性。
判别鸿沟(Discrimination Gap):反映了人类和模型在区分正确答案和错误答案方面的能力差异。研究表明,与LLM自身能够很好地区分正确与错误答案相比,人类在面对默认解释时,判别能力仅略高于随机猜测。
这就像LLM心里有一杆秤,能清楚地知道自己“知道多少”和“不知道多少”,但它在“表达”的时候,却可能没有有效地传达这种不确定性,导致人类用户产生误判。
研究中一个有趣的发现是,LLM解释的长度会影响用户信任 。即使更长的解释并没有提高答案的准确性,用户也倾向于对更长的解释表现出更高的信心。这表明用户在处理解释时可能处于一种“浅层处理”模式,仅仅依靠文本长度等简单线索来判断LLM的准确性。
这与心理学和传播学研究中的发现不谋而合——人们往往认为更长的回答或解释更具说服力或可信度,即使它们没有包含更多有意义的信息。
好消息是,这项研究也提出并测试了一种有效的方法来缩小这些差距:调整LLM的解释,使其更好地反映模型自身的内部信心 。
通过根据模型的置信度(低、中、高)来调整解释的类型(例如,在模型不确定时给出“我不太确定”的表述),研究人员发现:
校准鸿沟显著缩小:人类对LLM可靠性的评估得到了改善,与模型的实际准确性更接近。
判别鸿沟也得到缩小:用户能够更好地辨别LLM的答案是可能正确还是可能不正确。
这强调了准确传达不确定性的重要性,尤其是在AI辅助决策环境中。
研究人员也对LLM为什么会生成与自身置信度不符的解释提出了假设:
人类偏好偏差:目前的LLM在训练时会通过人类反馈的强化学习(RLHF)进行校准。而人类倾向于更详细、更长的解释,这可能导致LLM产生过度自信的解释,从而误导用户。
自回归性质:LLM在确定答案后,可能会生成最大化该答案可能性的解释,从而导致“断言性”的回答。这类似于心理学中的“选择支持偏差”,即人们在做出决策后会高估所选选项的吸引力。
随着LLMs越来越深入地融入我们的决策过程,理解它们的能力边界以及我们对它们认知的偏差至关重要。这项研究提醒我们,仅仅依赖LLM的默认解释可能导致过度自信和误判。
通过透明地传达不确定性,并使LLM的解释与模型本身的信心对齐,我们才能构建出更可靠、更值得信赖的AI助手,真正实现人与AI之间的有效协作。
参考论文
What large language models know and what people think they know
如果您觉得有收获,点击在看,把他推荐给更多朋友~
您的支持是作者的最大动力!
欢迎赞赏作者,留言讨论~
长
按
关
注
更多AI、人因工程与核安全相关内容,欢迎关注本公众号,持续推送前沿研究与应用实践!

