新智元报道
多模态大推理模型(MLRMs)的长链思考能力日益重要,但研究发现长链推理并非必然更可靠。Monash University、Georgia Tech等机构的最新研究指出,模型幻觉多因推理链在不确定节点偏移所致,并非单纯图像识别错误。当模型生成because、however等转折词时,常处于高熵关键节点,易脱离图像证据转向语言脑补。该研究提出LEAD方法,通过延迟离散输出和视觉锚点校正,显著降低幻觉发生率。
幻觉成因:高熵节点的推理偏移
研究表明,MLRMs的幻觉多发于transition words生成后阶段,此类情形占全部幻觉相当比例。核心机制在于:转折词对应token熵值显著升高,表明模型在多个推理路径间摇摆。若此时过早选定单一离散token,将导致整条推理链脱离图像证据。
进一步分析显示,高熵节点为推理关键决策点——屏蔽此类token对性能影响远超其他token。且hallucination相关高熵token的视觉注意力比例更低,说明模型在不确定时对图像证据依赖减弱,转向纯语言推理。
LEAD:延迟决策与视觉校准
LEAD(Latent Entropy-Aware Decoding)针对高熵节点实施双重策略:
1. 在高熵阶段保留语义多样性:采用概率加权的连续embedding,维持多候选推理方向,避免过早锁定单一路径;待熵值下降后自然切回离散输出
2. 增强视觉证据绑定:当检测到视觉注意力衰减时,注入预训练视觉表示的guidance vector,强制将推理锚定于图像证据
实验效果验证
LEAD在多类基准测试中表现稳定:
- R1-Onevision-7B模型在VStar提升4.7分,RealWorldQA提升3.9分
- 数学推理任务显著改善:MathVision+2.5,Geometry3K+3.3
- 跨模型验证有效,包括Vision-R1、VL-Rethinker等框架
消融实验证实:动态entropy阈值设定优于固定策略,适中视觉注入强度实现最佳平衡。定性分析显示,LEAD在关键节点扩大token分布熵值,使注意力聚焦相关图像区域,随后在证据约束下收敛输出。该方法不仅提升准确率,还降低平均推理步长,实现更高效的样本利用。
技术优势与普适性
LEAD在保持文本质量(grammar/fluency/naturalness指标稳定)的同时缓解幻觉,表明其非依赖保守策略。研究揭示核心洞见:多模态幻觉的关键并非"不会推理",而是在高熵节点过早固化错误决策路径。通过将语义探索窗口前置于不确定阶段,并结合视觉证据校准,该方法为MLRMs提供了更可靠的推理框架。
论文链接:https://arxiv.org/pdf/2603.13366

