好久没推OCR开源了,今天找到一个猛的,项目很新,劲头很足,它最大的特点,是基于视觉大模型。
现在的OCR已经不只是文字识别了,更重要的是一些其他格式的内容,像是公式、表格、多语言等等。
这个轻量级的视觉模型参数只有1.7B,但是能力上是真的强。
其他那些乱七八糟的数据就不放了,一起来看看介绍。
项目简介
dots.ocr 是一个基于单一视觉-语言模型的多语种文档布局解析工具,它整合了版式检测与内容识别功能,支持保持阅读顺序,并在仅 17 亿参数的模型中实现业内领先表现,兼具高性能与高效率。
DEMO
阅读顺序
这也就是简介里说的,它可以做到保持阅读顺序,不一定是完全按照从左到右还是从上到下去排列。
公式文档
表格文档
多语言识别
锚定 OCR
也就是它能根据用户指定的边界框,精准识别该框内的文档内容,实现对特定区域的文本提取与解析,方便用户聚焦于文档中特定部分的信息处理。
功能特点
性能强:在基准测试中,dots.ocr 在文本、表格和阅读顺序方面实现了最佳的性能,同时其公式识别结果可与豆包 1.5、Gemini 2.5 Pro 等大得多的模型相媲美。
多语言支持:dots.ocr 对低资源语言展现出强大的解析能力,在多语言文档基准测试中,无论是版式检测还是内容识别,都有很大优势。
统一简洁的架构:dots.ocr 借助单一的视觉 - 语言模型,相比依赖复杂多模型流水线的传统方法,架构明显更简洁,只需改变输入提示即可切换任务。
高效快速的性能:基于 17 亿参数的紧凑型大语言模型构建,相比许多基于更大基础模型的高性能模型,dots.ocr 的推理速度更快。
项目链接
https://github.com/rednote-hilab/dots.ocr
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

