腾讯混元实验室于 2025 年 11 月 25 日正式开源全新 OCR 模型 HunyuanOCR,以仅 10 亿参数在多项 OCR 榜单中取得 SOTA 成绩,彻底打破 "参数越大性能越强" 的行业惯性思维。
核心特点与技术架构
1. 架构创新:三位一体的轻量设计
保留图像原始分辨率细节,突破传统 OCR 固定分辨率压缩导致的信息损失
特别擅长处理模糊、低质量图像和复杂场景(如手写笔记、街景招牌)
-
基于腾讯 HunyuanVideo 模型技术,优化时空特征提取和文本定位
在腾讯自建覆盖 9 大应用场景的基准测试中,HunyuanOCR 文字检测和识别能力全面领先同类开源及商业模型 :
场景类型 |
性能亮点 |
票据识别 |
增值税发票、出租车票等关键信息识别准确率达99.9% |
文档解析 |
自动提取正文、页眉页脚、表格、公式,按阅读顺序结构化输出 |
手写识别 |
打印与手写混合文档的精准识别 |
多语种支持 |
14 种高频小语种(德、西、日、韩等)与中英文互译 |
视频字幕 |
实时抽取视频双语字幕,大幅降低内容创作和翻译成本 |

