大数跨境

多模态幻觉的病因「高熵节点」找到了!全基准幻觉率下降

多模态幻觉的病因「高熵节点」找到了!全基准幻觉率下降 新智元
2026-04-10
2

新智元报道

编辑:LRST

多模态大推理模型(MLRMs)的长链思考能力日益重要,但研究发现长链推理并非必然更可靠。Monash University、Georgia Tech等机构的最新研究指出,模型幻觉多因推理链在不确定节点偏移所致,并非单纯图像识别错误。当模型生成because、however等转折词时,常处于高熵关键节点,易脱离图像证据转向语言脑补。该研究提出LEAD方法,通过延迟离散输出和视觉锚点校正,显著降低幻觉发生率。

幻觉成因:高熵节点的推理偏移

研究表明,MLRMs的幻觉多发于transition words生成后阶段,此类情形占全部幻觉相当比例。核心机制在于:转折词对应token熵值显著升高,表明模型在多个推理路径间摇摆。若此时过早选定单一离散token,将导致整条推理链脱离图像证据。

进一步分析显示,高熵节点为推理关键决策点——屏蔽此类token对性能影响远超其他token。且hallucination相关高熵token的视觉注意力比例更低,说明模型在不确定时对图像证据依赖减弱,转向纯语言推理。

LEAD:延迟决策与视觉校准

LEAD(Latent Entropy-Aware Decoding)针对高熵节点实施双重策略:

1. 在高熵阶段保留语义多样性:采用概率加权的连续embedding,维持多候选推理方向,避免过早锁定单一路径;待熵值下降后自然切回离散输出

2. 增强视觉证据绑定:当检测到视觉注意力衰减时,注入预训练视觉表示的guidance vector,强制将推理锚定于图像证据

实验效果验证

LEAD在多类基准测试中表现稳定:

  • R1-Onevision-7B模型在VStar提升4.7分,RealWorldQA提升3.9分
  • 数学推理任务显著改善:MathVision+2.5,Geometry3K+3.3
  • 跨模型验证有效,包括Vision-R1、VL-Rethinker等框架

消融实验证实:动态entropy阈值设定优于固定策略,适中视觉注入强度实现最佳平衡。定性分析显示,LEAD在关键节点扩大token分布熵值,使注意力聚焦相关图像区域,随后在证据约束下收敛输出。该方法不仅提升准确率,还降低平均推理步长,实现更高效的样本利用。

技术优势与普适性

LEAD在保持文本质量(grammar/fluency/naturalness指标稳定)的同时缓解幻觉,表明其非依赖保守策略。研究揭示核心洞见:多模态幻觉的关键并非"不会推理",而是在高熵节点过早固化错误决策路径。通过将语义探索窗口前置于不确定阶段,并结合视觉证据校准,该方法为MLRMs提供了更可靠的推理框架。

论文链接:https://arxiv.org/pdf/2603.13366

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 15126
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读162.5k
粉丝0
内容15.1k