DeepSeek 又双叒叕出圈了!
最新发布的 DeepSeek-OCR 刷爆外网,一上线就冲上 X 热搜榜首。
卡神 Andrej Karpathy 亲自发帖点评:
马斯克也火速现身评论区掀起热议 👀。
这次,DeepSeek 又整出了什么新活?
DeepSeek OCR 到底有何不同、为何引发行业狂欢?
今天,就让我们跟随 标普智元总裁 杨蜀 的视角,
一起揭开这场关于 AI 视觉理解的革命。
01 DeepSeek OCR 是什么?
简单说,这就是把对文字token的理解,10倍压缩转换成了对图像的理解。古有一图胜千言,今有一图胜十言。
这里不展开讲解Encode 和Decode 的技术区别。简单说,大模型是一维的认知能力,靠预测下一个token 来生成内容;而DeepSeek OCR 把文字抽象成一张图,让AI直接理解图的意义,升级成了二维,也就是直接把文字token压缩转换为视觉token。
这个在十倍压缩下可以达到97%的精度,15倍压缩达到90%,但20倍就衰减到60%了。
02 它的直接意义是什么?
大家可以想想,以前我们在背文章的时候,是不是脑子里会有一副画面,这样文字的背诵也更容易了。
它其实并不是解决了传统OCR(Optical Character Recognition)对字符和图表的识别精度问题,而更多是解决了大模型的上下文(Context)过长的问题。
大家知道,大模型长于计算但短于存储,为了获得准确的输出,就要依赖更多的上下文输入,来让它提高准确度和减少幻觉。这当然就消耗了算力、提高了时延。所以AI大神KJ也说,以后的大模型输入,都可以全部转换为图片来识别和理解。
03 它对“大模型的记忆”意味着什么?
进一步的意义,既然大模型会遗忘,那么我们如何让它善于遗忘?也就是忘掉不重要的,记住重要的。DeepSeek OCR 给这个技术方向提供了一种可能性。
最后,AI通过这种方式,图的含义的理解能力虽然提升了,但是它并没有解决OCR里面最关键的,也就是具体的数字、字符、图表的理解和识别提取的精度的问题。毕竟在严肃的商业中,数字是不能有错的。
DeepSeek OCR 让我们看到了 AI 在“看懂图”的方向上迈出的一大步,而在商业落地层面,BPai 早已把这种能力用在了真实的业务场景中。
BPai OpenSeeo 超级识别基于BPai自研视觉识别大模型,精准应对各种复杂文档场景:
扭曲、倾斜、折痕,手写内容,多表格堆叠、下拉框打勾、名词标准化、单位标准化与值换算、无表头表格、跨页表格。
核心能力包括:
(1)全介质文档快速精准识别
突破传统 OCR文档类型限制,支持纸张、图像、PDF 及手写体等介质,秒速转化,识别准确率 98%,大幅提升处理效率。
(2)AI 自动分类
运用AI技术,自动对文档进行分类。让文档管理变得更为高效有序,有效降低人工分类所耗费的时间与可能出现的失误。
能够对文档内容开展结构化提取工作,把原本杂乱无章的非结构化数据,转变为条理清晰、易于处理的结构化数据,方便企业后续对数据进行分析运用。
(4)多模态关联
通过深入挖掘文档内容,帮助企业搭建起具有成长性的数据资产基础,重新塑造文档价值,引领企业迈向智能经营的新阶段。
欢迎到BPai 体验中心免费试用
👇👇

往期推荐
分享让更多人看看

