Vary：扩充Vision Vocabulary，提升LVLM的dense和细粒度视觉感知能力

极市平台

2023-12-18

导读：Vary 能够胜任新文档解析功能，同时在 DocVQA 中实现 78.2% 的 ANLS，在 MMVet 中实现 36.2%。

↑ 点击蓝字关注极市平台

作者丨孔令宇@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/671420712

编辑丨极市平台

极市导读

Vary充分探索了视觉词表对感知能力的影响，提供了一套有效的视觉词表扩充方法。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

很高兴向大家介绍我们最近在探索增强多模态大模型细粒度视觉感知方面的新工作：Vary(https://varybase.github.io/)。

Vary充分探索了视觉词表对感知能力的影响，提供了一套有效的视觉词表扩充方法。通过在公开数据集以及我们渲染的文档图表数据上训练，在保持vanilla多模态能力的同时，还激发出了端到端的中英文图片、公式截图和图表理解能力，是一套视觉感知上限极高的通用多模态框架。

Vary是我们在这个方向上的初步探索，目前Vary的基础版 demo(http://region-31.seetacloud.com:22701/) 已经上线，代码和模型(https://github.com/Ucas-HaoranWei/Vary) 均已开源，欢迎试玩和反馈，我们将继续增强Vary作为基座的各项能力，感谢大家的持续关注！

如果我们的工作对你有所启发，也希望能在Github(https://github.com/Ucas-HaoranWei/Vary)为我们点上一个 Star！

Project page:

https://varybase.github.io/

Demo：http://region-31.seetacloud.com:22701/：

我们研究的动机主要是目前的多模态大模型几乎都是用CLIP作为Vision Encoder或者说视觉词表。确实，在400M图像文本对训练的CLIP有很强的视觉文本对齐能力，可以cover多数日常任务下的图像编码。但是对于dense和细粒度感知任务，比如文档级别的OCR、Chart理解，特别是在非英文场景，CLIP表现出了明显的编码低效和out-of-vocabulary问题。受语言的LLMs启发，迁移英文LLM到其他语言时要扩充词表以提高编码效率和提高性能，我们也需要对视觉词表进行扩充。