-
多样性高:表格有线表、无线表、三线表等;线体有实线、虚线、点线,甚至因扫描或打印质量导致的断线、模糊。 -
结构复杂:存在跨行/跨列的合并单元格,这破坏了表格的规整网格结构,是识别过程中的最大难点之一。 -
文本与布局的强关联:单元格内的文本排版(如居中、缩进)往往暗示了其行列关系,尤其是在无线表中。 -
上下文语义依赖:表头、表体、表注的区分,以及单元格内容的语义理解(如“总计”通常在最下方或最右方),对正确还原结构至关重要。
-
这是所有表格识别的基础。与传统OCR不同,表格中的文字识别需要处理方向不一、字体多样、间距紧密的文本。
-
检测:采用基于深度学习的检测模型,它不仅能精准定位每个文本行或单词的位置(包围框),还对弯曲、倾斜文本有很好的鲁棒性。 -
识别:使用CRNN模型(如 PARSeq),将检测到的文本图像区域转换为字符序列。这些模型通过大量数据训练,对模糊、噪声、复杂字体具有很强的泛化能力。 -
精度提升点:在此阶段,高质量的OCR引擎是基石。同时,会进行文本块的初步排序,为后续的结构分析提供输入。
-
目标检测:将每个单元格视为一个独立的目标,使用Faster R-CNN 的模型直接预测所有单元格的边界框。这种方法对规整表格有效,但对复杂合并单元格处理不佳。 -
语义分割:将任务视为像素级分类。模型(如U-Net 及其变体)为每个像素预测其属于“横线”、“竖线”、“单元格背景”等类别的概率。通过后处理,可以将预测出的线重建出完整的表格网格。这种方法对断线、模糊线的还原能力很强。 -
代表性模型:TableNet 是一个先驱性的端到端模型,它通过一个共享的编码器(如 ResNet),然后分两个解码分支分别预测表格区域和列分割线,实现了较好的结构感知。
-
图神经网络:将检测到的文本块视为图的节点,然后根据它们的空间位置关系(如水平/垂直对齐、距离远近)建立边。GNN通过消息传递来学习节点之间的关系,从而推断出哪些文本块属于同一行、同一列。 -
图像到标记:受NLP 领域启发,最新技术如 TREAR、StructText 将表格图像输入一个视觉Transformer编码器,然后使用一个解码器直接生成描述表格结构的“标记序列”(类似于HTML标签,如 <row> <cell> ... </cell> </row>)。这种方法能端到端地输出带结构的表格,非常强大。
-
技术核心:同时利用视觉特征(来自原始图像)和文本特征(来自第一阶段OCR的结果)。模型会共同处理这两种信息:视觉特征帮助理解线条、布局和单元格的视觉边界;文本特征帮助理解语义,例如,一个跨越多列的文本块很可能是合并单元格的表头。 -
代表性模型:PubLayNet、EDSL 等先进模型都采用了多模态思路。通过一个融合编码器,模型能够做出更准确的判断,例如,即使无线表没有任何线条,也能通过文本的对齐方式和语义内容“脑补”出表格结构。
-
根据第二阶段输出的行列索引,将每个文本块分配到对应的(row, col) 坐标中。 -
对于合并单元格,系统会记录其起始行、结束行、起始列、结束列,确保在输出为HTML或Excel时能正确还原。 -
利用空间重叠(IOU)和相对位置关系进行精细化匹配,解决文本块与单元格边界不完全对齐的问题。
-
逻辑校验:检查表格的逻辑一致性,例如,同一行的单元格应该在水平线上大致对齐。 -
语义修正:利用NLP技术,对识别出的文本进行纠错,特别是基于表格上下文(如某一列全是日期,那么识别为“2023-02-3O”的文本可以被修正为“2023-02-30”)。 -
结构化输出:将最终结果转换为所需的格式,如HTML(保留结构和样式)、Excel(可直接编辑)、JSON(便于程序调用)或 Markdown。
-
高质量的训练数据:数据是AI的燃料。需要大量、多样化、精准标注的表格数据。标注不仅包括文本和位置,更包括复杂的行列关系、合并单元格信息。数据增强技术(如旋转、模糊、噪声模拟)也被广泛用于提升模型鲁棒性。 -
领域自适应:在金融、医疗等专业领域,表格样式和术语独特。通过在特定领域数据上进行微调,可以显著提升该场景下的识别精度。 -
端到端优化:将文字识别、结构分析等子系统进行联合优化,而非孤立处理,可以减少误差累积,提升整体性能。
-
更强的推理能力:不仅能还原结构,还能理解表格内容的深层含义,回答基于表格的复杂问题。 -
跨模态表格生成:根据一段文字描述,自动生成对应的数据表格。 -
开箱即用的通用性:一个模型无需微调即可应对绝大多数未知场景的表格。

