

浪潮灵犀有言：秒解图片表格提取难题，让海量数据“活”起来

浪潮软件集团

2025-08-26

非结构化数据中，图片表格蕴藏着大量关键业务信息，却因“读不准、提不全、用不上”而难以发挥更大的价值。浪潮软件灵犀有言团队新推出的多模态复杂表格提取大模型，能直接将含表格的图片转成结构化HTML，精准还原布局与细节，让“人能看懂的表格”真正变成“机器能用的数据”，同时支持轻量化部署，适配多场景需求。

传统表格处理流程要经过检测、切分、OCR识别等多步操作，任何一步出错都会产生连锁反应，而且换个行业或模板就得重新调整规则，维护成本极高。更头疼的是，哪怕文字识别再准，只要结构关系错了，数据还是没法入库使用。

近日，浪潮软件灵犀有言团队依托山东省公共服务人工智能技术重点实验室，研发推出多模态复杂表格提取大模型Lxyy-vl-3b，能够高效获取高精度的表格数据，助力数字政府、教育、市场监管、民政、人社等各行业工作提质增效。

一张图片搞定！端到端实现表格结构化

无需繁琐步骤，用户只需上传含表格的扫描件或照片，模型就能直接输出结构化的HTML格式文件。无论是行列布局、跨行跨列合并，还是特殊符号、页眉页脚，都能精准还原，真正实现从“人能看懂的表格”到“机器能用的数据”无缝转化。

我们用三大指标对主流多模态模型进行了对比测试：

编辑距离相似度（EDS）：衡量文字内容准确性，数值越高越好；
树编辑距离相似度（TEDS）：评估表格结构还原度，越接近1越优；
可用/完全可用率：直观体现表格能否直接使用。仅忽略单元格高度宽度，可用指重构结果虽少格子或结构有差异，但单元格独立、合并关系不受影响；完全可用指推理结果与原始表格结构完全一致，这二者存在包含关系。

测试结果显示，灵犀有言的Lxyy-vl-3b模型表现亮眼：TEDS达到0.84，与行业领先的MinerU持平，Lxyy-vl-3b-cot在此基础上又有所提升，达到了0.89。

可视化对比也很直观。对比同一张信息采集表三个模型的提取结果，模型A错误识别了下部单元格跨列结构，而Lxyy-vl-3b及模型B准确识别了全部结构化信息，实现无偏差还原。

凭什么这么强？硬核技术解密

先进算法组合，精准度持续升级。采用SFT + GRPO/DAPO的训练体系，先通过有监督微调让模型掌握表格结构特征与推理能力，然后专门训练带“思考链”的预热模型，引导推理逻辑更稳定。强化学习阶段采用动态采样优化算法，让模型聚焦易错点，让训练目标与业务需求完全对齐。

轻量化部署

下一步，团队计划从三方面持续迭代：

敬请期待！

如果您也被图片表格提取和数据价值转化的难题困扰，欢迎联系浪潮软件灵犀有言团队深入交流，一起探索更多应用可能！

END

相关推荐

浪潮软件发布灵犀有言大模型

【声明】内容源于网络

浪潮软件集团

应用创新产品及服务提供商客户服务热线：400-699-1556

内容 367

粉丝 0

浪潮软件集团应用创新产品及服务提供商客户服务热线：400-699-1556

总阅读217

粉丝0

内容367