

刷新SOTA！这个开源OCR凭1.7B参数AI视觉模型，实现全能文档解析。

AIGC Studio

2025-12-05

导读：好久没推OCR开源了，今天找到一个猛的，项目很新，劲头很足，它最大的特点，是基于视觉大模型。现在的OCR已经

好久没推OCR开源了，今天找到一个猛的，项目很新，劲头很足，它最大的特点，是基于视觉大模型。

现在的OCR已经不只是文字识别了，更重要的是一些其他格式的内容，像是公式、表格、多语言等等。

这个轻量级的视觉模型参数只有1.7B，但是能力上是真的强。

其他那些乱七八糟的数据就不放了，一起来看看介绍。

项目简介

dots.ocr 是一个基于单一视觉-语言模型的多语种文档布局解析工具，它整合了版式检测与内容识别功能，支持保持阅读顺序，并在仅 17 亿参数的模型中实现业内领先表现，兼具高性能与高效率。

DEMO

阅读顺序

这也就是简介里说的，它可以做到保持阅读顺序，不一定是完全按照从左到右还是从上到下去排列。

公式文档

表格文档

多语言识别

锚定 OCR

也就是它能根据用户指定的边界框，精准识别该框内的文档内容，实现对特定区域的文本提取与解析，方便用户聚焦于文档中特定部分的信息处理。

功能特点

性能强：在基准测试中，dots.ocr 在文本、表格和阅读顺序方面实现了最佳的性能，同时其公式识别结果可与豆包 1.5、Gemini 2.5 Pro 等大得多的模型相媲美。

多语言支持：dots.ocr 对低资源语言展现出强大的解析能力，在多语言文档基准测试中，无论是版式检测还是内容识别，都有很大优势。

统一简洁的架构：dots.ocr 借助单一的视觉 - 语言模型，相比依赖复杂多模型流水线的传统方法，架构明显更简洁，只需改变输入提示即可切换任务。

高效快速的性能：基于 17 亿参数的紧凑型大语言模型构建，相比许多基于更大基础模型的高性能模型，dots.ocr 的推理速度更快。

项目链接

https://github.com/rednote-hilab/dots.ocr

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

【声明】内容源于网络

AIGC Studio

一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

内容 876

粉丝 0

AIGC Studio 一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

总阅读44

粉丝0

内容876