大数跨境
0
0

多模态文档解析模型HunyuanOCR-1B效果测试及翻车问题总结

多模态文档解析模型HunyuanOCR-1B效果测试及翻车问题总结 大模型自然语言处理
2025-11-26
11

多模态文档解析模型HunyuanOCR-1B效果测试及翻车问题总结

本文对HunyuanOCR-1B的文档解析能力的简单测试,其方案可见《多模态文档解析模型新进展:腾讯开源HunyuanOCR-1B模型架构、训练配方》,关于文档智能解析的详细相关技术路线可见《文档智能专栏》。

先说结论,个人感觉文档解析能力一般,问题还蛮多的,主要体现在:

  • 表格能力比较差(尤其是结构识别能力)
  • 版式能力不是特别理想
  • 阅读顺序能力不是特别理想
  • 幻觉问题(重复输出)

注:测试代码完全参照官方:https://github.com/Tencent-Hunyuan/HunyuanOCR

下面直接上测试case,所用测试case均没有那么复杂。(以上内容均为个人实际测试,仅供参考)

测试case

结构识别错误
HuanyuanOCR的论文其中一页,结构识别错误
重复输出一次表格,并且结构错误
无线表能力不行(layout的问题)
阅读顺序错误,并且这部分识别成title
重复输出幻觉

【声明】内容源于网络
0
0
大模型自然语言处理
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:老余,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
内容 222
粉丝 0
大模型自然语言处理 不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:老余,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
总阅读219
粉丝0
内容222