大数跨境
0
0

Vary:扩充Vision Vocabulary,提升LVLM的dense和细粒度视觉感知能力

Vary:扩充Vision Vocabulary,提升LVLM的dense和细粒度视觉感知能力 极市平台
2023-12-18
1
导读:Vary 能够胜任新文档解析功能,同时在 DocVQA 中实现 78.2% 的 ANLS,在 MMVet 中实现 36.2%。
↑ 点击蓝字 关注极市平台
作者丨孔令宇@知乎(已授权)
来源丨https://zhuanlan.zhihu.com/p/671420712
编辑丨极市平台

极市导读

 

Vary充分探索了视觉词表对感知能力的影响,提供了一套有效的视觉词表扩充方法。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

很高兴向大家介绍我们最近在探索增强多模态大模型细粒度视觉感知方面的新工作:Vary(https://varybase.github.io/)。

Vary充分探索了视觉词表对感知能力的影响,提供了一套有效的视觉词表扩充方法。通过在公开数据集以及我们渲染的文档图表数据上训练,在保持vanilla多模态能力的同时,还激发出了端到端的中英文图片、公式截图和图表理解能力,是一套视觉感知上限极高的通用多模态框架。

Vary是我们在这个方向上的初步探索,目前Vary的基础版 demo(http://region-31.seetacloud.com:22701/) 已经上线,代码和模型(https://github.com/Ucas-HaoranWei/Vary) 均已开源,欢迎试玩和反馈,我们将继续增强Vary作为基座的各项能力,感谢大家的持续关注!

如果我们的工作对你有所启发,也希望能在Github(https://github.com/Ucas-HaoranWei/Vary)为我们点上一个 Star!

Project page:

https://varybase.github.io/

Demo:http://region-31.seetacloud.com:22701/

Demo的网页版和手机版(夜间主题)
Demo的网页版和手机版(亮色主题)

我们研究的动机主要是目前的多模态大模型几乎都是用CLIP作为Vision Encoder或者说视觉词表。确实,在400M图像文本对训练的CLIP有很强的视觉文本对齐能力,可以cover多数日常任务下的图像编码。但是对于dense和细粒度感知任务,比如文档级别的OCR、Chart理解,特别是在非英文场景,CLIP表现出了明显的编码低效和out-of-vocabulary问题。受语言的LLMs启发,迁移英文LLM到其他语言时要扩充词表以提高编码效率和提高性能,我们也需要对视觉词表进行扩充。

不同于现有方法直接用现成的CLIP词表,Vary分两个阶段:第一阶段先用一个很小的decoder-only网络用自回归方式帮助产生一个强大的新视觉词表;然后在第二阶段融合新词表和CLIP词表,从而高效的训练LVLM拥有新feature。Vary的训练方法和模型结构如下图:

更多的模型结构和实验数据细节欢迎阅读论文了解~

下面是一些Vary的例子,欢迎来demo体验和创造更多有趣的例子

各种中英文图片OCR:

图片转成markdown格式:

表格转换:

图表理解:

通用理解和对话:

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k