

万物识别RAM：最强图像识别模型，Zero-Shot超越有监督

极市平台

2023-06-12

↑ 点击蓝字关注极市平台

作者丨Smarter

来源丨Smarter

编辑丨极市平台

极市导读

RAM为图像识别领域提供了一种新的范式，使用海量无需人工标注的网络数据，可以训练出泛化能力强大的通用模型，甚至在垂域下可以超越人工标注训练的有监督模型。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

大语言模型（Large Language Models）已经给自然语言处理（NLP）领域带来了新的革命。在计算机视觉（CV）领域，Facebook近期推出的Segment Anything Model（SAM）工作，在视觉定位（Localization）任务上取得了令人振奋的结果。然而SAM作为一个极致的定位大模型，并没有识别（Recognition）能力，而识别是与定位同等重要的CV基础任务。现有的开放式检测、分割任务尝试同时做好识别和定位，却在两个任务上都不能达到极致。

我们推出视觉感知大模型Recognize Anything Model（RAM），提供最强的图像识别能力，RAM为图像识别领域提供了一种新的范式，使用海量无需人工标注的网络数据，可以训练出泛化能力强大的通用模型，甚至在垂域下可以超越人工标注训练的有监督模型。

项目地址：https://recognize-anything.github.io/

【RAM的优势】

能力强且通用： RAM可识别任意常见类别，支持中英文，精度上其Zero-Shot能力超越了有监督模型，高于CLIP/BLIP等经典多模态模型20+点，并可对标甚至超越Google的商用API；

可复现且成本低： RAM完全基于开源数据训练，通过自动化的数据引擎获取了上亿级无须人工标注的高质量图像标签，RAM的基础版本模型只需八卡训练1天，最强版本也仅需八卡训练3天；

灵活且用途广： RAM可以直接用在不同的视觉语义理解场景，也可以与定位大模型（如Grounded-SAM）组合，实现一套超强的视觉语义分析工具。

【RAM的创新点】

RAM在算法和数据上相比之前工作均有较大创新：

算法层面： 充分利用Transformer架构的灵活性，创新性地将多标签识别（Tagging）和看图说话（Captioning）两个任务有机联合，Caption扩展了Tagging的识别范围，而Tagging则可以辅助Caption实现可控的句子生成。并且通过固定的文本编码器在Tagging实现了Open-Set标签类别的能力。