

多模态技术在知乎推荐场景落地探索

知乎技术专栏

2025-11-04

导读：本文分享了多模态大模型在知乎推荐场景的落地探索。为解决传统推荐系统对图文、视频内容理解不足的挑战，团队使用多模态大模型，构建了多模态的内容表征以及显式高维标签。此外，团队创新性地引入 RQ-VAE

1. 背景

在推荐系统的演进中，经历了从基于规则、协同过滤到当前基于深度学习模型的推荐阶段。大语言模型的蓬勃发展，为推荐系统注入了新的能力，一是表征学习，包括强大的语义理解与多模态内容感知、零样本与少样本学习能力，以及外部知识融合与跨域泛化能力；二是生成式推荐，体现为统一的生成式框架、更强的特征交叉与上下文理解能力，以及潜在的Scaling Law。

随着内容平台的快速发展，用户对文字、图片、视频等多样化内容的需求日益增长。知乎作为以问答和社区为核心的内容平台，主要面临以下挑战：

内容理解不足：以往的推荐系统中，对内容的理解主要依赖文本特征，难以有效处理图片、视频等多模态信息，导致内容标签覆盖不足（如“美食品鉴”仅依赖文字描述，无法捕捉视觉信息）
冷启动问题：新内容缺乏用户行为数据，难以通过协同过滤精准推荐

本文基于Qwen2.5-VL等多模态大模型，探索从显式标签构建到隐式表征学习的全链路解决方案，旨在突破现有推荐系统的模态壁垒。

2. 基于大模型的多模态内容理解

基于大模型的多模态内容理解能力，将介绍两个核心产出：高维标签与高维向量。具体而言，利用多模态大模型（如Qwen2.5-VL-72B）提取内容特征（图片、文本、视频），生成高维显式标签。同时，基于大模型，经对比学习和数据合成训练，构建多模态向量。

2.1 多模态高维显式标签

多模态高维标签是一套细粒度、准确率高、开放集合的内容标签体系，自动更新标签，结合内容的文本、图片信息，使内容标签丰富且准确。

2.1.1 多模态模型产出标签探索

在基座模型的选择上，调研尝试了多种模型，详细如下:

在旗舰模型 Qwen2.5-VL-72B-Instruct 的测试中，它在一系列涵盖多个领域和任务的基准测试中表现出色，包括大学水平的问题、数学、文档理解、视觉问答、视频理解和视觉 Agent。值得注意的是，Qwen2.5-VL 在理解文档和图表方面具有显著优势，并且能够作为视觉 Agent 进行操作，而无需特定任务的微调。

2.1.2 数据合成及训练

经过第一阶段探索，最终选择Qwen2.5-VL-72B 作为数据合成的模型，共计合成约了 2w 条想法和 6.5k 条视频，同时进行送标，人工标注标签相关性，保证标签的可用率。整体训练流程如下图：

对内容进行标注分为强相关 2、弱相关 1、不相关 0 三档，分别对单独强相关数据和混合强弱相关数据在 Qwen2.5vl-7b 和 Qwen2.5vl-3b 进行微调并评估。

2.1.3 效果评估

评估结论：在强相关数据上sft 的 qwen2.5-vl-3b 效果在有图想法上优势较为明显，准确率为80.23%；在无 ocr 信息的视频上也相较于线上版本有突出优势。

通过最终评估并结合成本考虑选择基于强相关数据微调的qwen2.5vl-3b版本的模型作为高维标签多模态产出模型，产出结果示例如下：

2.2 多模态通用隐式向量

多模态大模型发展迅速，将视觉理解模型与大语言模型结合，展现出了强大的多模态内容理解能力。我们考虑基于多模态大模型构建多模态内容表征模型，构造合成数据，训练模型提取多模态通用隐式向量。

2.2.1 模型架构与训练

我们采用的Qwen2-VL [1] 作为基座多模态模型，该模型由视觉编码模型、映射模型和自回归大语言模型三部分组成。Qwen2-VL中通过引入2D旋转位置编码，支持了动态原生分辨率输入，将不同尺寸的输入图片灵活地编码为不同长度的特征token。并通过引入多模态旋转位置编码（M-RoPE），更好地表示文本、图片、视频三种不同输入数据模态的位置信息。虽然Qwen2-VL具有强大的多模态理解能力，但其训练目标是结合对视觉内容的理解，自回归地生成自然语言回复，并非针对嵌入表征学习进行优化。因此，需要针对特定任务进行微调，以增强模型的表征能力。

多模态嵌入模型结构和训练目标

其中 T 是温度系数，用于控制分布的集中度。

训练时，我们使用7b的基座模型，采用参数高效微调方法LoRA [7]，rank为16，多模态模型中视觉编码模型、映射模块和自回归语言大模型三部分的参数都进行更新。

2.2.2 数据合成

如何构建高质量的配对数据是多模态嵌入模型训练的关键。最近有许多工作 [4, 5, 6] 在这方面展开了研究，他们大多聚焦于英文图文数据的构建。为了在知乎站内各场景中应用多模态嵌入能力，我们需要构建大规模中文图文训练数据。最近的超大多模态大模型 [2, 7] 展现出了强大的图文内容理解和推理的能力，鉴于此，我们使用下面两种策略合成数据，来训练模型的嵌入表示能力。

1）用多模态大模型基于源图片合成中文查询-正样本配对数据

具体来说，我们使用Qwen2.5-VL-72B [6] 模型，对来自开源数据集和知乎站内的图片数据进行深度思考的数据合成。如下图所示，在合成数据的过程中，通过提示词引导模型先对图片从整体内容描述、物体细节、背景特征等方面进行全面的视觉理解，然后基于图片内容合成查询、正例和困难负例，最后，让模型对合成的数据进行自我检查，思考可以改进的地方并进行精修。最终的精修配对数据将被用于多模态表征模型的训练。

数据合成流程

2）用多模态大模型对M1（上述数据训练的模型）的候选结果进行 ReRank，合成配对数据

具体来说，我们使用上述数据训练的模型M1，对知乎站内图文数据进行召回，然后用Qwen2.5-VL-72B [6] 模型进行 ReRank合成查询、正例和困难负例。在ReRank过程中，我们通过提示词让MLLM 对输入的两篇Document 进行相关性打分，分值越高相关性越强，则作为正样本对，反之则作为难负样本对。

2.2.3 评测

近期，有工作 [8] 提出了多模态嵌入基准MMEB，其中包括分类、检索、视觉问答、视觉定位四大类元任务，共包含20个训练数据集，36个评估数据集，是目前主流的多模态嵌入基准。我们将MMEB-eval基准翻译成了中文，并进行了精校，用于评估多模态嵌入模型的中文图文表征能力。

下表展示了基于上述模型结构、训练方式和合成数据的训练结果，基线模型是GME 7b [4]。可以看到，相比于同等规模的基线模型，在MMEB-eval-zh基准上，整体有7.4%（49.7 -> 53.4）的提升，在各个元任务上，也大部分有1-9个百分点的提升。说明了合成数据对中文能力提升的有效性。

3. 多模态技术在推荐场景的落地应用及效果

内容标签和Embedding表征在推荐系统中有着广泛的应用。高维标签可用于标签召回和模型特征，Embedding可用于 I2I 召回、模型特征，以及 DPP 等多样性算法中。标签召回、I2I 召回、多样性算法的应用方式比较通用，不再单独介绍。

3.1 多模态高维显式标签在推荐场景的落地应用

我们把高维显式标签应用在了新内容的标签召回上，带动新内容的曝光互动率提升 3.26%。

另外，我们将高维显式标签直接作为内容的 ID 类特征接入排序模型、作为行为序列的 side-info 特征用于提升长尾内容的行为刻画能力，均取得了不错的收益。

3.2 多模态通用表征结果在推荐场景的落地应用

ID特征（如用户ID、物品ID）因结构简单且易于嵌入表示，已成为协同过滤等传统推荐模型的核心输入。然而如何将多模态表征更好地融入推荐系统，仍是一个亟待深入探索的开放课题。

业界常见的做法是对齐、压缩为低维向量以拼接到推荐模型中使用。我们也尝试过直接将多模态的向量直接融合到模型中，效果不佳。

多模态向量接入模型

此后，我们尝试通过量化及微调两种方式，分别对多模态表征进行提纯、推荐信息融合，成功应用于推荐流程的各个环节。

整体架构

3.2.1 多模态表征量化

考虑到内容本身存在层级关联关系，我们使用了基于RQ-VAE [9] 的压缩量化方式，这种方式在一定程度上保留了原始多模态表征的语义信息，同时作为ID类特征输入到推荐模型中，Embedding层是可以学习的。

这种量化方式有很多优势：

聚类粒度灵活
接入方式灵活，且成本低
更新相对容易

我们预设内容可以映射到带有N层级联分类的空间上，这些层级大小分别为L1，L2，L3...Ln。

量化过程

3.2.1.1 codebook构造

以上步骤可表示为：

.......

3.2.1.2 生成残差隐式语义ID

得到 L 个 codebook

之后，接下来将每个Item的多模态表征进行量化，从第一层开始基于当前的残差表征在对应层的codebook中查找最近邻的质心:

并将该质心的下标作为该item在L层的id。

每经过一层的残差网络，都会产生最近邻的表征以及id，最终产出带有层级关系的ID：

以及带有当前层残差信息的向量表征：

3.2.1.3 训练以及部署

模型损失：

，其中：

部署：模型训练一次，批量回刷后，对新内容实时预测。

3.2.1.4 离线评估

我们通过大量的人工标注，来反向验证了这种自回归的量化编码方式。结果证明：最终的编码分类较可靠，在每个层级上都能准确的提炼出内容的语义相似性。

另外，我们采用Recall@TopK的方式，来进行了相似性评估。结果证明：在最细粒度的召回case上准确率达到100%，在次细粒度上准确率达到71%。

隐式ID的层级关系

3.2.1.5 线上收益

我们将预训练的隐式语义ID分别应用在了新内容的各个推荐环节，标签召回、作为特征加入模型等等。

pretrainID接入模型

取得了不错的收益：

ctr相对增长116.31%

曝光互动率相对增长249.57%

3.2.2 多模态表征微调

多模态表征包含着内容的文本以及图片等多个模态的基础信息，但是缺乏了推荐领域的协同信息。因此我们也探索了多种微调的方式，来得到推荐领域更适配的多模态表征。

方式一：

使用推荐领域的协同信息干预多模态表征。具体做法是将多模态表征作为内容侧的唯一特征，接入到传统的推荐ctr模型预估中，以此来得到包含模态信息及协同信息的低维表征。

多模态微调方式一

方式二：

使用itemCF、双塔item表征来构造正样本，在rank的300～1200中随机选取负样本，使用这些doc pair的多模态通用表征来进行对比学习，以获得协同信息和多模态信息的融合。

3.2.2.1 离线评估

语义相似性

我们通过Recall@TopK的方式，来进行基础语义的相似性评估。结果证明：通过微调表征召回的近邻内容，在模态语义上仍极大程度保持着原来的相似性。

通过共现数据，我们筛选出了一些各人群上协同概率较低的内容分别记为集合A，集合B，将集合AB的内容进行任意组合作为<doc pair>来评估微调前后的相似性：

仅使用多模态表征计算内容相关性

使用微调后的表征计算内容相关性

图中行列的交叉点代表集合A与集合B中任意两个item的相似度，颜色由「绿->黄->红」代表「不相关->相关」。

以上两张图片证明，在协同概率较低的内容上，微调后的数据保留并且拉大了语义相关性的差异。

l协同相似性

另外，我们筛选出CF队列的trigger内容和召回并点击的内容作为<doc pair>，对这些<doc pair>使用微调表征来计算相似性。结果证明：微调表征也包含了协同的信息。

例如以下两个内容，属于不同的领域，在语义含义上具有非常大的差别，但在特定人群上的共现点击频率很高。多模态的相似性很低，但微调后的表征相似性较高。

语义不相关但共现点击频率较高的内容对

3.2.2.3 线上收益

我们将微调表征应用在了新内容的近邻召回上，带动新内容的ctr提升2.8%，曝光互动率提升9.2%。

4. 总结展望

大模型凭借其强大的语义理解能力和跨域泛化能力，为传统推荐系统带来了新的技术突破和应用范式。本文系统性地验证了多模态大模型在知乎推荐场景的落地价值。通过构建多模态标签体系与通用表征模型，实现了推荐效果的显著提升。

多模态标签和向量生成：基于大模型的多模态信息理解能力，显著提升了对内容信息的建模准确性
残差离散化表征：通过RQ-VAE层级编码，实现了高维向量到隐式ID的保真压缩
协同-语义双驱动微调：在保持90%视觉相似性的同时，有效提升了内容的推荐共现相关性

大模型在推荐系统中的应用仍处于早期阶段，未来将在技术深化与场景拓展中释放更大潜力，推动推荐系统向更智能、个性化、可信赖的方向演进。

5. 参考文献

1.Wang, Peng, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen et al. "Qwen2-vl: Enhancing vision-language model's perception of the world at any resolution." arXiv preprint arXiv:2409.12191 (2024).

2.Oord, Aaron van den, Yazhe Li, and Oriol Vinyals. "Representation learning with contrastive predictive coding." arXiv preprint arXiv:1807.03748 (2018).

3.Chen, Haonan, Liang Wang, Nan Yang, Yutao Zhu, Ziliang Zhao, Furu Wei, and Zhicheng Dou. "mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data." arXiv preprint arXiv:2502.08468 (2025).

4.Zhang, Xin, Yanzhao Zhang, Wen Xie, Mingxin Li, Ziqi Dai, Dingkun Long, Pengjun Xie, Meishan Zhang, Wenjie Li, and Min Zhang. "GME: Improving Universal Multimodal Retrieval by Multimodal LLMs." arXiv preprint arXiv:2412.16855 (2024).

5.Zhou, Junjie, Zheng Liu, Ze Liu, Shitao Xiao, Yueze Wang, Bo Zhao, Chen Jason Zhang, Defu Lian, and Yongping Xiong. "MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval." arXiv preprint arXiv:2412.14475 (2024).

6.Bai, Shuai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang et al. "Qwen2. 5-vl technical report." arXiv preprint arXiv:2502.13923 (2025).

7.Hu, Edward J., Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. "Lora: Low-rank adaptation of large language models." ICLR 1, no. 2 (2022): 3.

8.Jiang, Ziyan, Rui Meng, Xinyi Yang, Semih Yavuz, Yingbo Zhou, and Wenhu Chen. "Vlm2vec: Training vision-language models for massive multimodal embedding tasks." arXiv preprint arXiv:2410.05160 (2024).

9.Rajput, S., Mehta, N., Singh, A., Keshavan, R. H., Vu, T., Heldt, L., Hong, L., Tay, Y., Tran, V. Q., Samost, J., Kula, M., Chi, E. H., & Sathiamoorthy, M. (2023, November 3). Recommender systems with Generative Retrieval. arXiv.org. https://arxiv.org/abs/2305.05065

【声明】内容源于网络

知乎技术专栏

分享知乎技术日志，探索社区技术创新。

内容 17

粉丝 0

知乎技术专栏分享知乎技术日志，探索社区技术创新。

总阅读34

粉丝0

内容17