大数跨境
0
0

大规模文档版式分析数据集生成-OmniLayout-1M数据生成思路

大规模文档版式分析数据集生成-OmniLayout-1M数据生成思路 大模型自然语言处理
2025-11-05
1

再来看一个文档版式数据生成思路,利用大模型从粗到细粒度的生成通用文档版面分析数据,解决现有版式分析“缺多样性”、“缺规模”、“依赖人工标注”问题。

OmniLayout
与现有布局数据集的比较

前期相关:

OmniLayout-1M 数据集

为解决上面提到的问题,构建OmniLayout-1M 数据集,因此有几个点需要提一下:覆盖的场景需要丰富,数据来源于学术数据库(13个,如arXiv、PubMed);出版商(7个,如Elsevier、Springer);文档共享平台(16个,如教育、新闻、经济领域平台)。通过“去重+文档质量分析”过滤噪声(如模糊扫描件、格式错乱文档),最终保留100万样本

分布情况

伪标:标注“块级元素”:覆盖10个核心类别(文本、标题、图片、表格、公式、列表等), 按“自然阅读顺序”排序元素。

对于特殊场景如报纸:手动标注1000个报纸样本,微调DocLayout-YOLO,提升特殊场景的标注精度。

与现有布局数据集的比较

方法

两阶段生成路线

提出由“粗到细“两阶段学习范式,直接用少量细粒度数据(如M⁶Doc的复杂报纸标注)训练模型,易导致过拟合(无法泛化)和学习困难(复杂规则难以一次性掌握);而先通过大规模粗粒度数据学习“通用布局原则”(如对齐、空间组织、元素共存逻辑),再用少量细数据适配“领域特殊规则”(如报纸的导语-正文-广告布局、教科书的章节-公式-图表布局)。两阶段的具体实现如下:

Stage 1:粗粒度学习-通用布局能力

这一阶段的目的是让模型掌握跨文档类型的通用布局逻辑(如“标题通常在页面顶部”“图片常配说明文字”“文本块避免重叠”)。

数据:OmniLayout-1M的粗粒度标签数据:仅包含基础元素类别(如TEXT、TITLE、IMAGE、TABLE、FORMULA),不区分细分类别(如TEXT不拆分为“段落”“导语”); 样本量:构建9M个训练样本,覆盖6种文档类型,对应5种生成任务,任务比例为1:1:1:3:3(补全和修复任务占比更高,因更贴近实际场景)。

任务名称
输入条件(给模型的信息)
输出目标(模型预测的信息)
应用场景举例
U-Cond(无条件)
仅文档类型、画布大小、元素数量
完整布局(所有元素的c+x+y+w+h)
快速生成初始布局草稿
C→S+P
元素类别(c)+ 文档元数据
元素的大小(w,h)+ 位置(x,y)
已知内容类型,自动排版
C+S→P
元素类别(c)+ 大小(w,h)+ 文档元数据
元素的位置(x,y)
固定内容尺寸,优化位置避免重叠
Completion(补全)
部分元素(如10%)+ 文档元数据
补全剩余元素,形成完整布局
文档编辑时补充缺失内容布局
Refinement(修复)
被噪声扰动的布局(如坐标加高斯噪声)
恢复为合理的原始布局
修复扫描错误或手动调整后的布局

因此这一部分模型学习的重点可以归纳为如下几点:

  1. 空间关系:元素的坐标(x,y)、大小(w,h)的合理分配;
  2. 元素共存:哪些元素(如标题+文本、图片+ caption)常一起出现;
  3. 阅读顺序:元素序列与自然阅读逻辑的一致性。

Stage 2:细粒度学习—适配特定领域

将Stage 1学到的通用能力,适配到具体复杂领域(如报纸、教科书)等场景。输入数据为少量细粒度标注数据(如M⁶Doc中的报纸样本):该数据集将粗标签拆分为领域特定细分类别,例如:粗标签“TEXT”→报纸中拆分为“paragraph(正文)、lead(导语)、ordered_list(有序列表)等等。

模型和建模细节

将“文档布局生成”转化为LLM的序列生成任务,核心是“布局表示+生成任务设计+Prompt统一格式”,确保模型能处理多样化场景和复杂约束。

布局表示如下:

并通过以下方式序列化:

  • 归一化与量化:将坐标(x,y)和大小(w,h)归一化到[0,1],再量化到[0,999]的整数(离散化处理,适配LLM的token输入);

  • 特殊标记包裹:每个元素的类别和边界框用特殊token分隔,格式为:

    <|cat_start|> [元素类别] <|cat_end|> <|box_start|> [x] [y] [w] [h] <|box_end|>
  • 一页的所有元素按“自然阅读顺序”拼接成一个完整序列,作为LLM的输入/输出。

实验结果

合成数据可视化

参考文献:OMNILAYOUT: ENABLING COARSE-TO-FINE LEARNING WITH LLMS FOR UNIVERSAL DOCUMENT LAYOUT GENERATION,https://arxiv.org/pdf/2510.26213

【声明】内容源于网络
0
0
大模型自然语言处理
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:老余,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
内容 222
粉丝 0
大模型自然语言处理 不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:老余,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
总阅读227
粉丝0
内容222