大数跨境
0
0

多模态文档解析模型HunyuanOCR-1B效果测试及翻车问题总结

多模态文档解析模型HunyuanOCR-1B效果测试及翻车问题总结 InfraLink
2025-12-04
0
导读:多模态文档解析模型HunyuanOCR-1B效果测试及翻车问题总结本文对HunyuanOCR-1B的文档解析

多模态文档解析模型HunyuanOCR-1B效果测试及翻车问题总结

本文对HunyuanOCR-1B的文档解析能力的简单测试,其方案可见《多模态文档解析模型新进展:腾讯开源HunyuanOCR-1B模型架构、训练配方》,关于文档智能解析的详细相关技术路线可见《文档智能专栏》。

先说结论,个人感觉文档解析能力一般,问题还蛮多的,主要体现在:

  • 表格能力比较差(尤其是结构识别能力)
  • 版式能力不是特别理想
  • 阅读顺序能力不是特别理想
  • 幻觉问题(重复输出)

注:测试代码完全参照官方:https://github.com/Tencent-Hunyuan/HunyuanOCR

下面直接上测试case,所用测试case均没有那么复杂。(以上内容均为个人实际测试,仅供参考)

测试case

结构识别错误
HuanyuanOCR的论文其中一页,结构识别错误
HuanyuanOCR的论文其中一页,结构识别错误
重复输出一次表格,并且结构错误
重复输出一次表格,并且结构错误
无线表能力不行(layout的问题)
无线表能力不行(layout的问题)
阅读顺序错误,并且这部分识别成title
重复输出幻觉
重复输出幻觉

  


关注我们!与InfraLink共赴智能未来



🔗 聚焦数据科学 | 深耕算法创新 | 赋能AI工程化

📌 技术干货持续更新,全球生态合作共建

✨ 点击关注@InfraLink,解锁更多前沿技术资讯与实践洞察


【声明】内容源于网络
0
0
InfraLink
链接技术基建,共筑智能未来。 在数据智能重塑产业格局的时代,InfraLink 以「构建技术基础设施的全球连接枢纽」为使命,聚焦 数据科学、算法创新、AI 工程化 三大核心领域,打造集技术资讯、实践经验、生态合作为一体的全球化社区平台。
内容 109
粉丝 0
InfraLink 链接技术基建,共筑智能未来。 在数据智能重塑产业格局的时代,InfraLink 以「构建技术基础设施的全球连接枢纽」为使命,聚焦 数据科学、算法创新、AI 工程化 三大核心领域,打造集技术资讯、实践经验、生态合作为一体的全球化社区平台。
总阅读32
粉丝0
内容109