作者|陈浩邦 阿里巴巴达摩院算法工程师
摘要
近年来,大型多模态模型(MLLM)展现了惊人的信息处理潜力,但它们在理解真实世界的超长、复杂文档时,仍然面临巨大挑战。现有的基准也多侧重于短文档和抽取式问答,无法真实反映现实世界的复杂性。
为了解决这一难题,我们推出了M-LongDoc⸺一个专为超长多模态文档理解设计的全新基准和训练框架。这项工作不仅提出了更接近真实场景的“考题”,还设计了一种创新的“检索感知微调”方法,有效提升了模型在嘈杂信息中定位并理解关键内容的能力。
-
论文标题:https://arxiv.org/abs/2411.06176 -
项目主页:https://multimodal-documents.github.io/
现存问题及挑战
尽管多模态大模型发展迅速,但在“啃”超长文档这件事上,它们仍面临三大挑战:
真实世界文档的“超长”与“复杂”:现实中的文档,如学术文献综述、公司年报、产品手册,常常包含数百页内容,其中穿插着复杂的图表和表格。这对模型的长上下文处理能力和多模态理解能力提出了极高的要求。
现有基准的“短视”与“简单”:如下图所示,现有的大多数文档理解基准(如DocVQA、MMLongBench等)涉及的文档平均页数不超过50页,生成答案的平均长度也极短。它们的问题大多是简单的信息抽取(例如,“表格中的XX数字是多少?”),而无法评估模型深度推理和分析的能力。
检索增强生成(RAG)的“干扰”陷阱:直接将几百页的文档喂给模型,计算成本极高且不现实。实际应用中通常采用RAG策略,即先检索出最相关的几页内容,再让模型基于此作答。但我们的初步研究发现,即使有了检索器“划重点”,模型依然很容易被检索出的无关页面或内容“带跑偏”,导致回答错误。这暴露了当前模型在嘈杂信息中筛选、聚焦核心证据的能力不足。
图1:M-LongDoc与其他基准在文档长度、Token数和答案长度上的对比
核心方法:M-LongDoc基准与检索感知微调框架
为了系统性地解决上述挑战,研究团队构建了一套“三位一体”的解决方案:一个更真实的基准、一个更可靠的评估器,以及一个更聪明的训练方法。
M-LongDoc:一个更具挑战性的新基准
M-LongDoc基准库包含851个样本,覆盖学术、金融、产品三大领域。它具备以下突出特点:
超长文档:平均文档长度达到210.8页,Token数超过12万,远超现有基准。
开放式问题:不再是简单的信息提取,而是要求模型进行分析、比较、解释和推理,生成长篇、开放式的回答。如下图所示,M-LongDoc的问题更考验模型的综合理解能力。
高质量数据构建:问题由大型模型(GPT-4o等)基于真实文档自动生成,并经过“自动校验+人类专家校验”双重过滤,确保了问题的质量和挑战性。
图2:不同基准的问题与答案示例对比,M-LongDoc要求更复杂的解释
自动化评估框架:告别人工阅卷
评估开放式长答案的质量既耗时又昂贵。为此,研究团队设计了一个自动评估框架。该框架邀请了多个顶尖的多模态模型(如GPT-4o, Claude 3.5, Gemini 1.5 Pro)组成“评委团”,根据统一的评分标准(正确性、全面性等),为模型的回答打分。实验证明,这个“AI评委团”的打分结果与人类专家的评分高度一致(皮尔逊相关系数高达88.9%),实现了可靠、可复现、可扩展的自动评估。
图3:自动化多评委评估框架示意图
检索感知微调(Retrieval-Aware Tuning):让模型学会“抗干扰”
这是本次工作的核心创新。为了解决模型在RAG场景下容易被无关信息干扰的问题,研究者提出了一种新颖的微调策略。
传统的微调是给模型看“问题”和“标准答案所在的金标准页面”。而“检索感知微调”则模拟了真实的、不完美的检索场景:在训练时,除了提供包含答案的“金标准页面”,还故意加入几页从文档中检索到的、可能相关但非必需的“干扰页面”。
图4:检索感知微调框架示意图
通过这种方式,模型被迫在训练中学会:
识别:从一堆看似相关的内容中,精确识别出真正回答问题所需的证据。
聚焦:将注意力集中在关键信息上。
忽略:主动忽略那些无关的“噪音”信息。
为了支持这种训练,团队还构建了一个包含10,070个样本的高质量训练语料库。
实验结果
研究团队在M-LongDoc基准上对当前主流的闭源和开源多模态模型进行了全面评测。
核心结论:检索感知微调效果显著
实验结果表明,经过“检索感知微调”后,Qwen2-VL-7B模型的整体性能获得了4.6%的相对提升。如下表所示,模型在各个领域和问题类型上均取得了一致的进步,证明了该方法的有效性。
图5:主要实验结果。经过检索微调后,Qwen2-VL(最后一行)性能显著提升
关键洞察:模型普遍存在“重文轻图”的偏见
实验发现,无论是闭源还是开源模型,在处理基于图形(Figure)和表格(Table)的问题时,表现都普遍弱于处理纯文本(Text)问题。这种“多模态偏见”在开源模型上尤为明显,凸显了未来提升模型视觉精细化理解能力的必要性。
更强的鲁棒性:面对更多“干扰项”时表现更稳定
当提供给模型的参考页面增多时,模型是会获得更多线索,还是会更加‘困惑’呢?
原始模型:当参考页面从5页增加到10页时,其性能出现了明显下降。这证实了过多的、未经筛选的信息会成为‘噪音’,干扰模型的判断。
微调后的模型:表现出了卓越的鲁棒性。即使参考页面增加到
10页,其性能依然保持稳定,没有出现下滑。
图6:检索感知微调方法在不同检索页面数下的性能表现
|往期内容回看


