再来看一个文档版式数据生成思路,利用大模型从粗到细粒度的生成通用文档版面分析数据,解决现有版式分析“缺多样性”、“缺规模”、“依赖人工标注”问题。
前期相关:
OmniLayout-1M 数据集
为解决上面提到的问题,构建OmniLayout-1M 数据集,因此有几个点需要提一下:覆盖的场景需要丰富,数据来源于学术数据库(13个,如arXiv、PubMed);出版商(7个,如Elsevier、Springer);文档共享平台(16个,如教育、新闻、经济领域平台)。通过“去重+文档质量分析”过滤噪声(如模糊扫描件、格式错乱文档),最终保留100万样本
伪标:标注“块级元素”:覆盖10个核心类别(文本、标题、图片、表格、公式、列表等), 按“自然阅读顺序”排序元素。
对于特殊场景如报纸:手动标注1000个报纸样本,微调DocLayout-YOLO,提升特殊场景的标注精度。
方法
提出由“粗到细“两阶段学习范式,直接用少量细粒度数据(如M⁶Doc的复杂报纸标注)训练模型,易导致过拟合(无法泛化)和学习困难(复杂规则难以一次性掌握);而先通过大规模粗粒度数据学习“通用布局原则”(如对齐、空间组织、元素共存逻辑),再用少量细数据适配“领域特殊规则”(如报纸的导语-正文-广告布局、教科书的章节-公式-图表布局)。两阶段的具体实现如下:
Stage 1:粗粒度学习-通用布局能力
这一阶段的目的是让模型掌握跨文档类型的通用布局逻辑(如“标题通常在页面顶部”“图片常配说明文字”“文本块避免重叠”)。
数据:OmniLayout-1M的粗粒度标签数据:仅包含基础元素类别(如TEXT、TITLE、IMAGE、TABLE、FORMULA),不区分细分类别(如TEXT不拆分为“段落”“导语”); 样本量:构建9M个训练样本,覆盖6种文档类型,对应5种生成任务,任务比例为1:1:1:3:3(补全和修复任务占比更高,因更贴近实际场景)。
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
因此这一部分模型学习的重点可以归纳为如下几点:
-
空间关系:元素的坐标(x,y)、大小(w,h)的合理分配; -
元素共存:哪些元素(如标题+文本、图片+ caption)常一起出现; -
阅读顺序:元素序列与自然阅读逻辑的一致性。
Stage 2:细粒度学习—适配特定领域
将Stage 1学到的通用能力,适配到具体复杂领域(如报纸、教科书)等场景。输入数据为少量细粒度标注数据(如M⁶Doc中的报纸样本):该数据集将粗标签拆分为领域特定细分类别,例如:粗标签“TEXT”→报纸中拆分为“paragraph(正文)、lead(导语)、ordered_list(有序列表)等等。
模型和建模细节
将“文档布局生成”转化为LLM的序列生成任务,核心是“布局表示+生成任务设计+Prompt统一格式”,确保模型能处理多样化场景和复杂约束。
布局表示如下:
并通过以下方式序列化:
-
归一化与量化:将坐标(x,y)和大小(w,h)归一化到[0,1],再量化到[0,999]的整数(离散化处理,适配LLM的token输入);
-
特殊标记包裹:每个元素的类别和边界框用特殊token分隔,格式为:
<|cat_start|> [元素类别] <|cat_end|> <|box_start|> [x] [y] [w] [h] <|box_end|> -
一页的所有元素按“自然阅读顺序”拼接成一个完整序列,作为LLM的输入/输出。
实验结果
参考文献:OMNILAYOUT: ENABLING COARSE-TO-FINE LEARNING WITH LLMS FOR UNIVERSAL DOCUMENT LAYOUT GENERATION,https://arxiv.org/pdf/2510.26213

