在大语言模型技术加速渗透各行各业的今天,如何让 AI 在企业级场景中实现精准高效的知识服务,成为行业落地的核心挑战。检索增强生成(RAG)技术作为解决大模型在 toB 场景泛化能力不足的主流方案,正被越来越多企业纳入技术选型清单。而在 RAG 的技术链条中,Retrieval 阶段的 Embedding 模型性能,直接决定了知识检索的准确性与全面性,成为影响最终服务效果的关键环节。
遗憾的是,当前的Embedding模型长期局限于纯文本处理,默认行业知识主要以文字形式存在,而现实中,企业文档中充满了示意图、数据表格、技术图例、实验图表等多模态内容 —— 制造业技术手册图文混排率超 60%,金融分析报告数据表格占比达 30%,医疗病例更是普遍存在影像与文字结合的情况。以下为 MMDocIR 发布的《多模态长文档检索基准报告》中,不同领域企业文档的多模态内容占比分布:
不同领域企业文档多模态内容占比图
这些占比高达30%~70%的多模态信息,长期被选择性 "忽视",导致知识检索在关键处"失准"。针对这一行业痛点,360AI研究院开源发布了多模态 Embedding 模型 RzenEmbed,该模型在国际权威基准测试 MMEB(Multi-Modal Embedding Benchmark)中斩获 “总排名第一 + VisDoc 专项第一” 的双料冠军,并于近期发布了完整的技术报告
-
RzenEmbed项目地址:https://github.com/360CVGroup/RzenEmbed
-
RzenEmbed论文地址:https://arxiv.org/abs/2510.27350
-
RzenEmbed模型下载:https://huggingface.co/collections/qihoo360/rzenembed
技术核心:构建统一的跨模态语义空间和检索能力
RzenEmbed从设计之初,其目标就是着眼于RAG应用的“下一步”,解决传统 Embedding 模型的单模态局限问题,覆盖从文本、图像、视频、多模态文档等多方面实际落地场景,构建统一的多模态语义空间,以统一的embedding嵌入,实现文→文、文→图/视频、图/视频→文、图/视频→图/视频 甚至 文+图/视频→文+图/视频的复杂检索。
1. 两阶段训练:兼顾通用能力与企业场景适配
RzenEmbed 采用 “基础预训练 + 精细微调” 的两阶段训练模式,通过高质量的训练数据,在通用能力与企业特定场景(如文档检索、视频分析等)适配之间取得了卓越的平衡。。
第一阶段:多模态持续预训练,筑牢基础能力。此阶段聚焦构建文本、图像、视频的基础语义对齐能力,不引入指令微调,专注让不同模态在统一空间中 “同频共振”。训练数据涵盖三大类型:
一是文本 - 文本(T→T)数据,采用 MSMARCO、NQ 等经典数据集共 30 万条,强化文本理解能力;
二是跨模态数据,包括 LAION 数据集的 200 万条文本 - 图像(T→I)对、ShareGPT4V 的 25 万条文本 - 视频描述(T→VD)对,建立跨模态关联;
三是融合模态数据,采用 Megapairs 数据集的 250 万条图像 - 文本到图像(IT→I)对,提升复杂场景理解。
特别值得一提的是,团队进行了大量的数据生成和数据清洗工作,比如通过 CogVLM-19B 大模型对 LAION 图像进行重新 captioning(描述生成),既减少了网页爬取数据的噪声,又让模型捕捉到更细微的语义差异,为企业文档中的图表、示意图理解打下基础。
第二阶段:指令微调,精准适配企业场景。进入微调阶段,模型开始针对企业高频场景优化,核心是构建 “任务类型 + 输入模态 + 任务场景” 三维度的高质量数据集。除了 MMEB-v2 训练集,还补充了大量公开多模态检索与问答数据,覆盖图像分类、视觉文档检索、视频检索、视频问答等多元任务 —— 比如针对企业文档场景,重点强化 Visual Document(VisDoc)的检索能力;针对视频分析需求,增加长视频片段检索、关键帧定位等任务。为避免模型过拟合,每个数据集样本量控制在 10 万条以内;同时,每个训练批次仅从单一数据集采样,让难负样本更集中,提升对比学习的有效性。
2. 改进型 InfoNCE 损失:解决检索 “老大难”,精准度大幅提升
传统对比学习中的 InfoNCE 损失,长期受两大问题困扰:一是 如何“过滤假阴样本”(语义与正样本相似却被误判为负样本),二是 如何“增加相似样本辨别能力”(模型在训练时随机采样,容易忽略难区分样本)。RzenEmbed 通过以下创新改进,让检索精准度显著提升。
假阴性缓解机制:智能筛选,避免学习偏差。团队设计了基于相似度阈值的过滤策略:对于每个查询 - 正样本对(q, k⁺),计算负样本 k⁻与正样本 k⁺的相似度,若超过预设阈值 δ(实验中设为 0.95),则判定该负样本为 “假阴性”,将其从损失计算的分母中剔除。让模型专注于学习真正的“相关”与“不相关”,而不会让“半相关”的样本产生误导。
硬度加权策略:聚焦难例,提升区分能力。针对 “难样本” 学习不足的问题,RzenEmbed 引入指数加权机制,对与查询 q 相似度更高的负样本(即更难区分的样本)分配更高权重。具体权重为 wᵢ = exp (α・sim (q, k⁻ᵢ)),其中 α 设为 9,确保难样本的损失贡献被放大。比如在金融研报检索中,模型会更关注 “2023 年 Q3 营收分析” 与 “2023 年 Q4 营收预测” 这类相似文本的区分,或是 “2022 年利润表” 与 “2023 年利润表” 这类相似表格的差异,完美匹配企业场景中精细检索的需求。
此外,团队还创新引入 “任务特异性可学习温度参数”。不同的检索数据,信息密度有所差异(比如文档数据信息密度更大,而一般视频信息密度较低)。RzenEmbed 为图像分类、文档检索、视频问答等 7 类任务,分别设计独立的可学习温度参数 τₜ,通过 τₜ = exp (θₜ) 的参数化方式确保其为正值,让模型为不同任务 “量身定制” 优化目标,进一步提升企业多场景适配能力。
3. 模型融合:解决多任务训练中的竞争难题
为了实现文→文、文→图/视频、图/视频→文、图/视频→图/视频 甚至 文+图/视频→文+图/视频的复杂检索,RzenEmbed需要同时覆盖以上各种组合的训练任务。语言模型训练的多任务竞争一直是LLM训练中的难题,这一难点在多模态训练上,因为不同任务间数据模态差异明显,就变得格外显著。为了解决这一难题,团队采用了 “模型融合(Model Souping)” 技术:通过不同训练数据和方法训练出的多个专家 LoRA 适配器,再通过加权聚合融合为一个通用适配器,最后与基础预训练模型合并。这一融合过程捕捉了各专家的互补知识,只需单次推理即可生成更具区分度的检索向量。
性能对比,多模态文档场景性能突出
RzenEmbed在国际MMEB基准评测中,7B版本斩获总排名第一 + 单项第一的双料冠军,在最能体现企业级应用价值的 VisDoc(多模态文档检索)专项测试中,RzenEmbed 以明显优势位居单项第一,证明了其在处理复杂办公文档场景时的核心竞争力。
下表给出了MMEB评测的全部细节,可以看到,在多模态文档检索单项上,2B版本的RzenEmbed已经可以力压参数更大且闭源的seed-1.6-embedding模型了。
综合能力第一:在涵盖文本、图像、视频、视觉文档的 78个任务中,2.21B(20 亿参数)版本总分67.2,8.29B(80 亿参数)版本总分 71.6,均超越所有同规模模型,甚至超过闭源的 Seed-1.6-embedding;
企业场景专项第一:在最能体现企业价值的 VisDoc(视觉文档)检索任务中,RzenEmbed 表现尤为突出,无论是文档分类、表格检索还是图表理解,都以明显优势位居第一,完美匹配企业文档处理需求;
视频检索领先:在视频片段检索、视频问答检索等任务中,模型也超越了 VLM2Vec-V2、UniME-V2 等同类方案,为企业视频培训材料、会议录像检索提供了强大支持。
产业落地:多行业赋能,不仅仅是技术进步的“下一步”
RzenEmbed的推出,不仅仅是技术突破意义上的“下一步”,更是AI在企业场景落地的 “更进一步”。在RzenEmbed的加持下,多模态RAG技术可以有效识别并召回以往被视为难题的复杂表格、流程图等“非结构化”内容:
Q: when GLM-10B can be accessed?
A:
Q: get the info. about human evaluation's math score of GPT-4 vs. Qwen-14B-Chat
A:
目前,RzenEmbed通过权重开源和SaaS服务(360AI研究院官网 https://research.360.cn)两种方式对外开放,未来将在多行业释放价值:
制造业:助力技术手册管理,工程师通过一张零件示意图,即可快速检索到对应的安装说明、维修流程,大幅提升工作效率;
金融业:实现研报智能分析,分析师输入 “2024 年新能源行业利润率”,模型可精准定位相关数据表格、趋势图表,减少信息筛选时间;
医疗行业:辅助病例知识挖掘,医生上传一张影像图,即可检索到相似病例的诊断报告、治疗方案,为临床决策提供参考。
从技术突破到产业落地,RzenEmbed 正以多模态能力为核心,推动企业级知识检索升级到“全维度” 智能融合的“下一步”。未来,360AI研究院还将持续优化模型,让多模态技术推动 AI 在办公场景的深度落地。
本文为粉丝投稿。

