大数跨境
0
0

刷新SOTA!这个开源OCR凭1.7B参数AI视觉模型,实现全能文档解析。

刷新SOTA!这个开源OCR凭1.7B参数AI视觉模型,实现全能文档解析。 AIGC Studio
2025-12-05
0
导读:好久没推OCR开源了,今天找到一个猛的,项目很新,劲头很足,它最大的特点,是基于视觉大模型。现在的OCR已经

好久没推OCR开源了,今天找到一个猛的,项目很新,劲头很足,它最大的特点,是基于视觉大模型。


现在的OCR已经不只是文字识别了,更重要的是一些其他格式的内容,像是公式、表格、多语言等等。


这个轻量级的视觉模型参数只有1.7B,但是能力上是真的强。



其他那些乱七八糟的数据就不放了,一起来看看介绍。


项目简介


dots.ocr 是一个基于单一视觉-语言模型的多语种文档布局解析工具,它整合了版式检测与内容识别功能,支持保持阅读顺序,并在仅 17 亿参数的模型中实现业内领先表现,兼具高性能与高效率。


DEMO


阅读顺序



这也就是简介里说的,它可以做到保持阅读顺序,不一定是完全按照从左到右还是从上到下去排列。


公式文档



表格文档



多语言识别



锚定 OCR


也就是它能根据用户指定的边界框,精准识别该框内的文档内容,实现对特定区域的文本提取与解析,方便用户聚焦于文档中特定部分的信息处理。



功能特点


性能强:在基准测试中,dots.ocr 在文本、表格和阅读顺序方面实现了最佳的性能,同时其公式识别结果可与豆包 1.5、Gemini 2.5 Pro 等大得多的模型相媲美。


多语言支持:dots.ocr 对低资源语言展现出强大的解析能力,在多语言文档基准测试中,无论是版式检测还是内容识别,都有很大优势。


统一简洁的架构:dots.ocr 借助单一的视觉 - 语言模型,相比依赖复杂多模型流水线的传统方法,架构明显更简洁,只需改变输入提示即可切换任务。


高效快速的性能:基于 17 亿参数的紧凑型大语言模型构建,相比许多基于更大基础模型的高性能模型,dots.ocr 的推理速度更快。


项目链接


https://github.com/rednote-hilab/dots.ocr

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

【声明】内容源于网络
0
0
AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
内容 876
粉丝 0
AIGC Studio 一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
总阅读44
粉丝0
内容876