大数跨境
0
0

万物识别RAM:最强图像识别模型,Zero-Shot超越有监督

万物识别RAM:最强图像识别模型,Zero-Shot超越有监督 极市平台
2023-06-12
1
↑ 点击蓝字 关注极市平台
作者丨Smarter
来源丨Smarter
编辑丨极市平台

极市导读

 

RAM为图像识别领域提供了一种新的范式,使用海量无需人工标注的网络数据,可以训练出泛化能力强大的通用模型,甚至在垂域下可以超越人工标注训练的有监督模型。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

大语言模型(Large Language Models)已经给自然语言处理(NLP)领域带来了新的革命。在计算机视觉(CV)领域,Facebook近期推出的Segment Anything Model(SAM)工作,在视觉定位(Localization)任务上取得了令人振奋的结果。然而SAM作为一个极致的定位大模型,并没有识别(Recognition)能力,而识别是与定位同等重要的CV基础任务。现有的开放式检测、分割任务尝试同时做好识别和定位,却在两个任务上都不能达到极致。

我们推出视觉感知大模型Recognize Anything Model(RAM),提供最强的图像识别能力,RAM为图像识别领域提供了一种新的范式,使用海量无需人工标注的网络数据,可以训练出泛化能力强大的通用模型,甚至在垂域下可以超越人工标注训练的有监督模型。

项目地址:https://recognize-anything.github.io/

【RAM的优势】

能力强且通用: RAM可识别任意常见类别,支持中英文,精度上其Zero-Shot能力超越了有监督模型,高于CLIP/BLIP等经典多模态模型20+点,并可对标甚至超越Google的商用API;

可复现且成本低: RAM完全基于开源数据训练,通过自动化的数据引擎获取了上亿级无须人工标注的高质量图像标签,RAM的基础版本模型只需八卡训练1天,最强版本也仅需八卡训练3天;

灵活且用途广: RAM可以直接用在不同的视觉语义理解场景,也可以与定位大模型(如Grounded-SAM)组合,实现一套超强的视觉语义分析工具。

【RAM的创新点】

RAM在算法和数据上相比之前工作均有较大创新:

算法层面: 充分利用Transformer架构的灵活性,创新性地将多标签识别(Tagging)和看图说话(Captioning)两个任务有机联合,Caption扩展了Tagging的识别范围,而Tagging则可以辅助Caption实现可控的句子生成。并且通过固定的文本编码器在Tagging实现了Open-Set标签类别的能力。

数据层面

  • 构建了一套横跨学术(分类、检测、分割)和商业化产品的通用视觉语义标签体系;
  • 充分利用网络上的海量的图文对数据,而非少量的人工标注数据;
  • 搭建了一套全自动化的数据引擎,源源不断的标注清洗网络上的海量图片,最终获取了上亿级高质量、有价值的图像标签。

RAM可以以较高的准确率自动识别超过6400类的图像标签,横跨学术数据集和商业化产品,并根据其Open-Set能力覆盖任意标签类别:

【总结与展望】

RAM在视觉识别领域展现了一个通用模型泛化到不同场景下的巨大潜力。RAM仍然有很大的提升空间,比如:

1)在一些稀有类别、细粒度分类任务上表现一般;

2)采用开源数据训练可能在有个别数据上出现偏见现象等。但我们坚信,大模型时代已经到来,视觉任务的统一是大势所趋,希望RAM能推进大模型在视觉领域的发展。

公众号后台回复“极市直播”获取100+期极市技术直播回放+PPT

极市干货

极视角动态极视角亮相BEYOND Expo,澳门特别行政区经济财政司司长李伟农一行莅临交流极视角助力构建城市大脑中枢,芜湖市湾沚区智慧城市运行管理中心上线!
数据集:60+开源数据集资源大合集(医学图像、卫星图像、语义分割、自动驾驶、图像分类等)
多模态学习CLIP:大规模语言-图像对比预训练实现不俗 Zero-Shot 性能ALBEF:图文对齐后再融合,借助动量蒸馏高效学习多模态表征

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读7.6k
粉丝0
内容8.2k