大数跨境
0
0

达摩院EMNLP'25|百页图文长文档看不完?M-LongDoc让大模型秒懂超长文档

达摩院EMNLP'25|百页图文长文档看不完?M-LongDoc让大模型秒懂超长文档 DAMO开发者矩阵
2025-11-05
0
导读:我们推出了M-LongDoc⸺一个专为超长多模态文档理解设计的全新基准和训练框架。这项工作不仅提出了更接近真实场景的“考题”,还设计了一种创新的“检索感知微调”方法,有效提升了模型在嘈杂信息中定位并理
作者|陈浩邦 阿里巴巴达摩院算法工程师

摘要


近年来,大型多模态模型(MLLM)展现了惊人的信息处理潜力,但它们在理解真实世界的超长、复杂文档时,仍然面临巨大挑战。现有的基准也多侧重于短文档和抽取式问答,无法真实反映现实世界的复杂性。


为了解决这一难题,我推出了M-LongDoc⸺一个专为超长多模态文档理解设计的全新基准和训练框架。这项工作不仅提出了更接近真实场景的“考题”,还设计了一种创新的“检索感知微调”方法,有效提升了模型在嘈杂信息中定位并理解关键内容的能力。


  • 论文标题:https://arxiv.org/abs/2411.06176
  • 项目主页:https://multimodal-documents.github.io/

现存问题及挑战


尽管多模态大模型发展迅速,但在“啃”超长文档这件事上,它们仍面临三大挑战:


  • 真实世界文档的“超长”与“复杂”:现实中的文档,如学术文献综述、公司年报、产品手册,常常包含数百页内容,其中穿插着复杂的图表和表格。这对模型的长上下文处理能力和多模态理解能力提出了极高的要求。


  • 现有基准的“短视”与“简单”:如下图所示,现有的大多数文档理解基准(如DocVQA、MMLongBench等)涉及的文档平均页数不超过50页,生成答案的平均长度也极短。它们的问题大多是简单的信息抽取(例如,“表格中的XX数字是多少?”),而无法评估模型深度推理和分析的能力。


  • 检索增强生成(RAG)的“干扰”陷阱:直接将几百页的文档喂给模型,计算成本极高且不现实。实际应用中通常采用RAG策略,即先检索出最相关的几页内容,再让模型基于此作答。但我们的初步研究发现,即使有了检索器“划重点”,模型依然很容易被检索出的无关页面或内容“带跑偏”,导致回答错误。这暴露了当前模型在嘈杂信息中筛选、聚焦核心证据的能力不足。


1:M-LongDoc与其他基准在文档长度、Token数和答案长度上的对比


核心方法:M-LongDoc基准与检索感知微调框架


为了系统性地解决上述挑战,研究团队构建了一套“三位一体”的解决方案:一个更真实的基准、一个更可靠的评估器,以及一个更聪明的训练方法。


M-LongDoc:一个更具挑战性的新基准


M-LongDoc基准库包含851个样本,覆盖学术、金融、产品三大领域。它具备以下突出特点:


  • 超长文档:平均文档长度达到210.8页,Token数超过12万,远超现有基准。


  • 开放式问题:不再是简单的信息提取,而是要求模型进行分析、比较、解释和推理,生成长篇、开放式的回答。如下图所示,M-LongDoc的问题更考验模型的综合理解能力。


  • 高质量数据构建:问题由大型模型(GPT-4o等)基于真实文档自动生成,并经过“自动校验+人类专家校验”双重过滤,确保了问题的质量和挑战性。


2:不同基准的问题与答案示例对比,M-LongDoc要求更复杂的解释


自动化评估框架:告别人工阅卷


评估开放式长答案的质量既耗时又昂贵。为此,研究团队设计了一个自动评估框架。该框架邀请了多个顶尖的多模态模型(如GPT-4o, Claude 3.5, Gemini 1.5 Pro)组成“评委团”,根据统一的评分标准(正确性、全面性等),为模型的回答打分。实验证明,这个“AI评委团”的打分结果与人类专家的评分高度一致(皮尔逊相关系数高达88.9%),实现了可靠、可复现、可扩展的自动评估。


3:自动化多评委评估框架示意图


检索感知微调(Retrieval-Aware Tuning):让模型学会“抗干扰”


这是本次工作的核心创新。为了解决模型在RAG场景下容易被无关信息干扰的问题,研究者提出了一种新颖的微调策略。


传统的微调是给模型看“问题”和“标准答案所在的金标准页面”。而“检索感知微调”则模拟了真实的、不完美的检索场景:在训练时,除了提供包含答案的“金标准页面”,还故意加入几页从文档中检索到的、可能相关但非必需的“干扰页面”。


4:检索感知微调框架示意图


通过这种方式,模型被迫在训练中学会:


  • 识别:从一堆看似相关的内容中,精确识别出真正回答问题所需的证据。


  • 聚焦:将注意力集中在关键信息上。


  • 忽略:主动忽略那些无关的“噪音”信息。


为了支持这种训练,团队还构建了一个包含10,070个样本的高质量训练语料库。


实验结果


研究团队在M-LongDoc基准上对当前主流的闭源和开源多模态模型进行了全面评测。


  • 核心结论:检索感知微调效果显著


    实验结果表明,经过“检索感知微调”后,Qwen2-VL-7B模型的整体性能获得了4.6%的相对提升。如下表所示,模型在各个领域和问题类型上均取得了一致的进步,证明了该方法的有效性。


    5:主要实验结果。经过检索微调后,Qwen2-VL(最后一行)性能显著提升


  • 关键洞察:模型普遍存在重文轻图的偏见


    实验发现,无论是闭源还是开源模型,在处理基于图形(Figure)和表格(Table)的问题时,表现都普遍弱于处理纯文本(Text)问题。这种“多模态偏见”在开源模型上尤为明显,凸显了未来提升模型视觉精细化理解能力的必要性。


  • 更强的鲁棒性:面对更多干扰项时表现更稳定


    当提供给模型的参考页面增多时,模型是会获得更多线索,还是会更加‘困惑’呢?


    • 原始模型:当参考页面从5页增加到10页时,其性能出现了明显下降。这证实了过多的、未经筛选的信息会成为‘噪音’,干扰模型的判断。


    • 微调后的模型:表现出了卓越的鲁棒性。即使参考页面增加到

      10页,其性能依然保持稳定,没有出现下滑。


6:检索感知微调方法在不同检索页面数下的性能表现


|往期内容回看


图片

【声明】内容源于网络
0
0
DAMO开发者矩阵
内容 57
粉丝 0
DAMO开发者矩阵
总阅读14
粉丝0
内容57