多模态幻觉的病因「高熵节点」找到了！全基准幻觉率下降- 大数跨境

首页

多模态幻觉的病因「高熵节点」找到了！全基准幻觉率下降

新智元

2026-04-10

新智元报道

编辑：LRST

多模态大推理模型（MLRMs）的长链思考能力日益重要，但研究发现长链推理并非必然更可靠。Monash University、Georgia Tech等机构的最新研究指出，模型幻觉多因推理链在不确定节点偏移所致，并非单纯图像识别错误。当模型生成because、however等转折词时，常处于高熵关键节点，易脱离图像证据转向语言脑补。该研究提出LEAD方法，通过延迟离散输出和视觉锚点校正，显著降低幻觉发生率。

幻觉成因：高熵节点的推理偏移

研究表明，MLRMs的幻觉多发于transition words生成后阶段，此类情形占全部幻觉相当比例。核心机制在于：转折词对应token熵值显著升高，表明模型在多个推理路径间摇摆。若此时过早选定单一离散token，将导致整条推理链脱离图像证据。

进一步分析显示，高熵节点为推理关键决策点——屏蔽此类token对性能影响远超其他token。且hallucination相关高熵token的视觉注意力比例更低，说明模型在不确定时对图像证据依赖减弱，转向纯语言推理。

LEAD：延迟决策与视觉校准

LEAD（Latent Entropy-Aware Decoding）针对高熵节点实施双重策略：

1. 在高熵阶段保留语义多样性：采用概率加权的连续embedding，维持多候选推理方向，避免过早锁定单一路径；待熵值下降后自然切回离散输出

2. 增强视觉证据绑定：当检测到视觉注意力衰减时，注入预训练视觉表示的guidance vector，强制将推理锚定于图像证据

实验效果验证

LEAD在多类基准测试中表现稳定：

R1-Onevision-7B模型在VStar提升4.7分，RealWorldQA提升3.9分
数学推理任务显著改善：MathVision+2.5，Geometry3K+3.3
跨模型验证有效，包括Vision-R1、VL-Rethinker等框架

消融实验证实：动态entropy阈值设定优于固定策略，适中视觉注入强度实现最佳平衡。定性分析显示，LEAD在关键节点扩大token分布熵值，使注意力聚焦相关图像区域，随后在证据约束下收敛输出。该方法不仅提升准确率，还降低平均推理步长，实现更高效的样本利用。

技术优势与普适性

LEAD在保持文本质量（grammar/fluency/naturalness指标稳定）的同时缓解幻觉，表明其非依赖保守策略。研究揭示核心洞见：多模态幻觉的关键并非"不会推理"，而是在高熵节点过早固化错误决策路径。通过将语义探索窗口前置于不确定阶段，并结合视觉证据校准，该方法为MLRMs提供了更可靠的推理框架。

论文链接：https://arxiv.org/pdf/2603.13366

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 15126

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读162.5k

粉丝0

内容15.1k