大数跨境
0
0

HunyuanOCR:1B 参数的轻量级 OCR 性能怪兽

HunyuanOCR:1B 参数的轻量级 OCR 性能怪兽 掌上小科技
2025-11-26
3
导读:在腾讯自建覆盖 9 大应用场景的基准测试中,HunyuanOCR 文字检测和识别能力全面领先同类开源及商业模型

腾讯混元实验室于 2025 年 11 月 25 日正式开源全新 OCR 模型 HunyuanOCR,以仅 10 亿参数在多项 OCR 榜单中取得 SOTA 成绩,彻底打破 "参数越大性能越强" 的行业惯性思维。


核心特点与技术架构

1. 架构创新:三位一体的轻量设计

  • 保留图像原始分辨率细节,突破传统 OCR 固定分辨率压缩导致的信息损失

  • 特别擅长处理模糊、低质量图像和复杂场景(如手写笔记、街景招牌)

  • 基于腾讯 HunyuanVideo 模型技术,优化时空特征提取和文本定位


在腾讯自建覆盖 9 大应用场景的基准测试中,HunyuanOCR 文字检测和识别能力全面领先同类开源及商业模型 :

场景类型

性能亮点

票据识别

增值税发票、出租车票等关键信息识别准确率达99.9%

文档解析

自动提取正文、页眉页脚、表格、公式,按阅读顺序结构化输出

手写识别

打印与手写混合文档的精准识别

多语种支持

14 种高频小语种(德、西、日、韩等)与中英文互译

视频字幕

实时抽取视频双语字幕,大幅降低内容创作和翻译成本


【声明】内容源于网络
0
0
掌上小科技
1234
内容 209
粉丝 0
掌上小科技 1234
总阅读53
粉丝0
内容209