多模态文档解析模型HunyuanOCR-1B效果测试及翻车问题总结
本文对HunyuanOCR-1B的文档解析能力的简单测试,其方案可见《多模态文档解析模型新进展:腾讯开源HunyuanOCR-1B模型架构、训练配方》,关于文档智能解析的详细相关技术路线可见《文档智能专栏》。
先说结论,个人感觉文档解析能力一般,问题还蛮多的,主要体现在:
-
表格能力比较差(尤其是结构识别能力) -
版式能力不是特别理想 -
阅读顺序能力不是特别理想 -
幻觉问题(重复输出)
注:测试代码完全参照官方:https://github.com/Tencent-Hunyuan/HunyuanOCR
下面直接上测试case,所用测试case均没有那么复杂。(以上内容均为个人实际测试,仅供参考)
测试case

