
01
引言
本文将探索令人兴奋的 Visual RAG 世界,探讨它的意义以及它是如何彻底改变传统的计算机视觉处理流程的。
从了解 RAG 的基础知识到其在视觉任务中的具体应用,我们将探讨这项技术如何为更先进、更高效的人工智能系统铺平道路。
闲话少说,我们直接开始吧。
02
为了更好地理解检索增强生成(RAG),首先需要定义 "prompting"。
RAG 将提示词和信息检索进行结合

事实证明,提示prompting技术为 RAG 等更先进的技术奠定了基础。
03
当大家利用GenAI模型(如 GPT-4 或 LLaVA )做提示时,大家得到的答案来自一个参数训练好的模型,该模型受到其信息截止点(或其自身训练数据的数量和质量)的限制。因此,该模型所学到的知识是静态的,超过某个时间点后的信息无法获取。
现在,让我们看一下上图 ,了解一下典型的 RAG 的工作流程:
-
Retrieval: 当收到用户的查询或提示时,系统首先从知识库或外部数据源检索相关信息。 Augmentation: 接着利用检索到的信息来增强或提高模型的输入。
Generation: 最后,模型根据原始查询和检索到的信息来生成响应。
04
如下图所示,Visual RAG 将检索增强生成(RAG)的概念应用于视觉任务。
05
-
Budget: 微调涉及重新训练模型,成本较高。 -
Inference: RAG 在推理过程中需要更多的计算资源。 -
Time: 由于微调过程中权重是不断更新的,因此微调在开始时需要投入更多时间,但从长远来看,时间消耗可能较少。
-
核心任务的不断发展的领域: 例如,在医学影像处理领域,既需要有标准诊断程序(通过微调处理),也需要有快速发展的研究和新案例研究(通过Visual RAG 处理)。 -
电子商务和产品识别:经过微调的模型可以识别产品类别,而 Visual RAG 可以从动态库存中检索最新的产品信息。 -
内容管理系统:微调可以处理常见的犯错情形,而 Visual RAG 则可以适应新出现的趋势或与上下文相关的犯错情形。
06
让我们来探讨一个用于视频理解的多模态 Visual RAG 管道的具体实现。该示例展示了这些技术如何协同工作,从视频数据中提取有意义的信息。

让我们来分析一下系统组件及其作用:
-
Knowledge Base: 该系统以包含视频和图像的知识库为起点。这是理解视觉内容的基础。 Embedding Model: 嵌入模型,如 CLIP,用于将知识库内容和用户查询转换为一个共同的向量空间。这样就可以在不同模式(文本和视觉数据)之间进行比较。
Vector Database: 知识库的嵌入式表示法存储在矢量数据库中,从而实现高效的相似性搜索。
Query Processing: 用户的查询通过嵌入模型将其转换为与知识库内容相同的向量空间。
Retrieval & Rank: 系统根据查询嵌入和存储嵌入之间的相似性,从向量数据库中检索相关信息。然后对结果进行排序,找出最相关的匹配结果。
Augmentation: 对检索到的信息进行及时处理或扩充,以完善上下文信息并为语言视觉模型做好准备。
LLaVA Fine-tuned: 微调后的LLaVA(大型视觉语言模型)来处理增强后的信息。LLaVA 是一个多模态模型,能够理解文本和视觉输入。
Inference: LLaVA 模型对处理过的数据进行推理,以生成能解决用户查询的响应。
Response: 最终输出是视觉响应--在本例中,是一张显示停在街道上的白色汽车的图片,与用户的查询相匹配
点击上方小卡片关注我
添加个人微信,进专属粉丝群!


