

大规模文档版式分析数据集生成-OmniLayout-1M数据生成思路

大模型自然语言处理

2025-11-05

再来看一个文档版式数据生成思路，利用大模型从粗到细粒度的生成通用文档版面分析数据，解决现有版式分析“缺多样性”、“缺规模”、“依赖人工标注”问题。

前期相关：

OmniLayout-1M 数据集

为解决上面提到的问题，构建OmniLayout-1M 数据集，因此有几个点需要提一下：覆盖的场景需要丰富，数据来源于学术数据库（13个，如arXiv、PubMed）；出版商（7个，如Elsevier、Springer）；文档共享平台（16个，如教育、新闻、经济领域平台）。通过“去重+文档质量分析”过滤噪声（如模糊扫描件、格式错乱文档），最终保留100万样本

伪标：标注“块级元素”：覆盖10个核心类别（文本、标题、图片、表格、公式、列表等），按“自然阅读顺序”排序元素。

对于特殊场景如报纸：手动标注1000个报纸样本，微调DocLayout-YOLO，提升特殊场景的标注精度。

方法

提出由“粗到细“两阶段学习范式，直接用少量细粒度数据（如M⁶Doc的复杂报纸标注）训练模型，易导致过拟合（无法泛化）和学习困难（复杂规则难以一次性掌握）；而先通过大规模粗粒度数据学习“通用布局原则”（如对齐、空间组织、元素共存逻辑），再用少量细数据适配“领域特殊规则”（如报纸的导语-正文-广告布局、教科书的章节-公式-图表布局）。两阶段的具体实现如下：

Stage 1：粗粒度学习-通用布局能力

这一阶段的目的是让模型掌握跨文档类型的通用布局逻辑（如“标题通常在页面顶部”“图片常配说明文字”“文本块避免重叠”）。

数据：OmniLayout-1M的粗粒度标签数据：仅包含基础元素类别（如TEXT、TITLE、IMAGE、TABLE、FORMULA），不区分细分类别（如TEXT不拆分为“段落”“导语”）；样本量：构建9M个训练样本，覆盖6种文档类型，对应5种生成任务，任务比例为1:1:1:3:3（补全和修复任务占比更高，因更贴近实际场景）。

任务名称	输入条件（给模型的信息）	输出目标（模型预测的信息）	应用场景举例
U-Cond（无条件）	仅文档类型、画布大小、元素数量	完整布局（所有元素的c+x+y+w+h）	快速生成初始布局草稿
C→S+P	元素类别（c）+ 文档元数据	元素的大小（w,h）+ 位置（x,y）	已知内容类型，自动排版
C+S→P	元素类别（c）+ 大小（w,h）+ 文档元数据	元素的位置（x,y）	固定内容尺寸，优化位置避免重叠
Completion（补全）	部分元素（如10%）+ 文档元数据	补全剩余元素，形成完整布局	文档编辑时补充缺失内容布局
Refinement（修复）	被噪声扰动的布局（如坐标加高斯噪声）	恢复为合理的原始布局	修复扫描错误或手动调整后的布局

因此这一部分模型学习的重点可以归纳为如下几点：

空间关系：元素的坐标（x,y）、大小（w,h）的合理分配；
元素共存：哪些元素（如标题+文本、图片+ caption）常一起出现；
阅读顺序：元素序列与自然阅读逻辑的一致性。

Stage 2：细粒度学习—适配特定领域

将Stage 1学到的通用能力，适配到具体复杂领域（如报纸、教科书）等场景。输入数据为少量细粒度标注数据（如M⁶Doc中的报纸样本）：该数据集将粗标签拆分为领域特定细分类别，例如：粗标签“TEXT”→报纸中拆分为“paragraph（正文）、lead（导语）、ordered_list（有序列表）等等。

模型和建模细节

将“文档布局生成”转化为LLM的序列生成任务，核心是“布局表示+生成任务设计+Prompt统一格式”，确保模型能处理多样化场景和复杂约束。

布局表示如下：

并通过以下方式序列化：

归一化与量化：将坐标（x,y）和大小（w,h）归一化到[0,1]，再量化到[0,999]的整数（离散化处理，适配LLM的token输入）；
特殊标记包裹：每个元素的类别和边界框用特殊token分隔，格式为：
```
<|cat_start|> [元素类别] <|cat_end|> <|box_start|> [x] [y] [w] [h] <|box_end|>
```
一页的所有元素按“自然阅读顺序”拼接成一个完整序列，作为LLM的输入/输出。