非结构化数据中,图片表格蕴藏着大量关键业务信息,却因“读不准、提不全、用不上”而难以发挥更大的价值。浪潮软件灵犀有言团队新推出的多模态复杂表格提取大模型,能直接将含表格的图片转成结构化HTML,精准还原布局与细节,让“人能看懂的表格”真正变成“机器能用的数据”,同时支持轻量化部署,适配多场景需求。
传统表格处理流程要经过检测、切分、OCR识别等多步操作,任何一步出错都会产生连锁反应,而且换个行业或模板就得重新调整规则,维护成本极高。更头疼的是,哪怕文字识别再准,只要结构关系错了,数据还是没法入库使用。
近日,浪潮软件灵犀有言团队依托山东省公共服务人工智能技术重点实验室,研发推出多模态复杂表格提取大模型Lxyy-vl-3b,能够高效获取高精度的表格数据,助力数字政府、教育、市场监管、民政、人社等各行业工作提质增效。
无需繁琐步骤,用户只需上传含表格的扫描件或照片,模型就能直接输出结构化的HTML格式文件。无论是行列布局、跨行跨列合并,还是特殊符号、页眉页脚,都能精准还原,真正实现从“人能看懂的表格”到“机器能用的数据”无缝转化。
我们用三大指标对主流多模态模型进行了对比测试:
编辑距离相似度(EDS):衡量文字内容准确性,数值越高越好;
树编辑距离相似度(TEDS):评估表格结构还原度,越接近1越优;
可用/完全可用率:直观体现表格能否直接使用。仅忽略单元格高度宽度,可用指重构结果虽少格子或结构有差异,但单元格独立、合并关系不受影响;完全可用指推理结果与原始表格结构完全一致,这二者存在包含关系。
测试结果显示,灵犀有言的Lxyy-vl-3b模型表现亮眼:TEDS达到0.84,与行业领先的MinerU持平,Lxyy-vl-3b-cot在此基础上又有所提升,达到了0.89。
模型 |
EDS |
TEDS |
可用/完全可用率 |
MinerU |
0.34 |
0.84 |
0.95/0.81 |
MonkeyOCR |
0.65 |
0.80 |
0.69/0.62 |
DotsOCR |
0.61 |
0.67 |
0.74/0.62 |
InternVL3-38B |
0.60 |
0.20 |
0.51/0.27 |
Qwen3b |
0.83 |
0.30 |
0.55/0.29 |
Qwen32b |
0.74 |
0.39 |
0.67/0.42 |
Lxyy-vl-3b |
0.78 |
0.84 |
0.73/0.66 |
Lxyy-vl-3b-cot |
0.88 |
0.89 |
0.82/0.74 |
可视化对比也很直观。对比同一张信息采集表三个模型的提取结果,模型A错误识别了下部单元格跨列结构,而Lxyy-vl-3b及模型B准确识别了全部结构化信息,实现无偏差还原。
海量真实数据打底,覆盖多领域场景。团队依托庞大的政务、司法、财务等领域真实表格数据,确保模型贴合实际业务需求。同时结合开源数据补充版式多样性,并通过自动生成管线制造“极限挑战”样本——包含跨行跨列、嵌套结构等复杂特征,让模型在训练中“见多识广”。
先进算法组合,精准度持续升级。采用SFT + GRPO/DAPO的训练体系,先通过有监督微调让模型掌握表格结构特征与推理能力,然后专门训练带“思考链”的预热模型,引导推理逻辑更稳定。强化学习阶段采用动态采样优化算法,让模型聚焦易错点,让训练目标与业务需求完全对齐。
考虑到实际应用场景,团队推出4-bit AWQ量化版本,单张A10显卡(10GB显存)就能运行。其中,Lxyy-vl-3b处理单张复杂表格平均仅需9秒,含思考链的版本也只需14秒,兼顾精度与效率,让本地化、低时延部署成为可能。
目前,Lxyy-vl-3b能够支持的应用场景包括政府领域基层填表报数自动化、跨部门数据共享,教育领域学生成绩单和在校表现记录数字化,市场监管领域企业报表合规审查等,预计将能有效减轻表格相关的重复劳动,大幅提升用户工作效能。
下一步,团队计划从三方面持续迭代:
精度提升:引入更细粒度奖励函数,强化极端场景处理能力;
部署优化:进一步压缩资源占用,适配边缘计算环境;
能力扩展:从表格识别延伸到视频、音频等多模态任务,实现跨领域统一解析。
敬请期待!
如果您也被图片表格提取和数据价值转化的难题困扰,欢迎联系浪潮软件灵犀有言团队深入交流,一起探索更多应用可能!

