达摩院EMNLP'25｜百页图文长文档看不完？M-LongDoc让大模型秒懂超长文档

DAMO开发者矩阵

2025-11-05

导读：我们推出了M-LongDoc⸺一个专为超长多模态文档理解设计的全新基准和训练框架。这项工作不仅提出了更接近真实场景的“考题”，还设计了一种创新的“检索感知微调”方法，有效提升了模型在嘈杂信息中定位并理

作者｜陈浩邦阿里巴巴达摩院算法工程师

摘要

近年来，大型多模态模型（MLLM）展现了惊人的信息处理潜力，但它们在理解真实世界的超长、复杂文档时，仍然面临巨大挑战。现有的基准也多侧重于短文档和抽取式问答，无法真实反映现实世界的复杂性。

为了解决这一难题，我们推出了M-LongDoc⸺一个专为超长多模态文档理解设计的全新基准和训练框架。这项工作不仅提出了更接近真实场景的“考题”，还设计了一种创新的“检索感知微调”方法，有效提升了模型在嘈杂信息中定位并理解关键内容的能力。

论文标题：https://arxiv.org/abs/2411.06176
项目主页：https://multimodal-documents.github.io/

现存问题及挑战

尽管多模态大模型发展迅速，但在“啃”超长文档这件事上，它们仍面临三大挑战：

真实世界文档的“超长”与“复杂”：现实中的文档，如学术文献综述、公司年报、产品手册，常常包含数百页内容，其中穿插着复杂的图表和表格。这对模型的长上下文处理能力和多模态理解能力提出了极高的要求。
现有基准的“短视”与“简单”：如下图所示，现有的大多数文档理解基准（如DocVQA、MMLongBench等）涉及的文档平均页数不超过50页，生成答案的平均长度也极短。它们的问题大多是简单的信息抽取（例如，“表格中的XX数字是多少？”），而无法评估模型深度推理和分析的能力。

检索增强生成（RAG）的“干扰”陷阱：直接将几百页的文档喂给模型，计算成本极高且不现实。实际应用中通常采用RAG策略，即先检索出最相关的几页内容，再让模型基于此作答。但我们的初步研究发现，即使有了检索器“划重点”，模型依然很容易被检索出的无关页面或内容“带跑偏”，导致回答错误。这暴露了当前模型在嘈杂信息中筛选、聚焦核心证据的能力不足。

图1：M-LongDoc与其他基准在文档长度、Token数和答案长度上的对比

核心方法：M-LongDoc基准与检索感知微调框架

为了系统性地解决上述挑战，研究团队构建了一套“三位一体”的解决方案：一个更真实的基准、一个更可靠的评估器，以及一个更聪明的训练方法。

M-LongDoc：一个更具挑战性的新基准

M-LongDoc基准库包含851个样本，覆盖学术、金融、产品三大领域。它具备以下突出特点：

超长文档：平均文档长度达到210.8页，Token数超过12万，远超现有基准。
开放式问题：不再是简单的信息提取，而是要求模型进行分析、比较、解释和推理，生成长篇、开放式的回答。如下图所示，M-LongDoc的问题更考验模型的综合理解能力。
高质量数据构建：问题由大型模型（GPT-4o等）基于真实文档自动生成，并经过“自动校验+人类专家校验”双重过滤，确保了问题的质量和挑战性。

图2：不同基准的问题与答案示例对比，M-LongDoc要求更复杂的解释

自动化评估框架：告别人工阅卷

评估开放式长答案的质量既耗时又昂贵。为此，研究团队设计了一个自动评估框架。该框架邀请了多个顶尖的多模态模型（如GPT-4o, Claude 3.5, Gemini 1.5 Pro）组成“评委团”，根据统一的评分标准（正确性、全面性等），为模型的回答打分。实验证明，这个“AI评委团”的打分结果与人类专家的评分高度一致（皮尔逊相关系数高达88.9%），实现了可靠、可复现、可扩展的自动评估。

图3：自动化多评委评估框架示意图

检索感知微调（Retrieval-Aware Tuning）：让模型学会“抗干扰”

这是本次工作的核心创新。为了解决模型在RAG场景下容易被无关信息干扰的问题，研究者提出了一种新颖的微调策略。

传统的微调是给模型看“问题”和“标准答案所在的金标准页面”。而“检索感知微调”则模拟了真实的、不完美的检索场景：在训练时，除了提供包含答案的“金标准页面”，还故意加入几页从文档中检索到的、可能相关但非必需的“干扰页面”。

图4：检索感知微调框架示意图

通过这种方式，模型被迫在训练中学会：

识别：从一堆看似相关的内容中，精确识别出真正回答问题所需的证据。
聚焦：将注意力集中在关键信息上。
忽略：主动忽略那些无关的“噪音”信息。

为了支持这种训练，团队还构建了一个包含10,070个样本的高质量训练语料库。

实验结果

研究团队在M-LongDoc基准上对当前主流的闭源和开源多模态模型进行了全面评测。

核心结论：检索感知微调效果显著

实验结果表明，经过“检索感知微调”后，Qwen2-VL-7B模型的整体性能获得了4.6%的相对提升。如下表所示，模型在各个领域和问题类型上均取得了一致的进步，证明了该方法的有效性。

图5：主要实验结果。经过检索微调后，Qwen2-VL（最后一行）性能显著提升
关键洞察：模型普遍存在“重文轻图”的偏见

实验发现，无论是闭源还是开源模型，在处理基于图形（Figure）和表格（Table）的问题时，表现都普遍弱于处理纯文本（Text）问题。这种“多模态偏见”在开源模型上尤为明显，凸显了未来提升模型视觉精细化理解能力的必要性。
更强的鲁棒性：面对更多“干扰项”时表现更稳定

当提供给模型的参考页面增多时，模型是会获得更多线索，还是会更加‘困惑’呢？