1. 背景
在推荐系统的演进中,经历了从基于规则、协同过滤到当前基于深度学习模型的推荐阶段。大语言模型的蓬勃发展,为推荐系统注入了新的能力,一是表征学习,包括强大的语义理解与多模态内容感知、零样本与少样本学习能力,以及外部知识融合与跨域泛化能力;二是生成式推荐,体现为统一的生成式框架、更强的特征交叉与上下文理解能力,以及潜在的Scaling Law。
随着内容平台的快速发展,用户对文字、图片、视频等多样化内容的需求日益增长。知乎作为以问答和社区为核心的内容平台,主要面临以下挑战:
内容理解不足:以往的推荐系统中,对内容的理解主要依赖文本特征,难以有效处理图片、视频等多模态信息,导致内容标签覆盖不足(如“美食品鉴”仅依赖文字描述,无法捕捉视觉信息)
冷启动问题:新内容缺乏用户行为数据,难以通过协同过滤精准推荐
本文基于Qwen2.5-VL等多模态大模型,探索从显式标签构建到隐式表征学习的全链路解决方案,旨在突破现有推荐系统的模态壁垒。
2. 基于大模型的多模态内容理解
基于大模型的多模态内容理解能力,将介绍两个核心产出:高维标签与高维向量。具体而言,利用多模态大模型(如Qwen2.5-VL-72B)提取内容特征(图片、文本、视频),生成高维显式标签。同时,基于大模型,经对比学习和数据合成训练,构建多模态向量。
2.1 多模态高维显式标签
多模态高维标签是一套细粒度、准确率高、开放集合的内容标签体系,自动更新标签,结合内容的文本、图片信息,使内容标签丰富且准确。
2.1.1 多模态模型产出标签探索
在基座模型的选择上,调研尝试了多种模型,详细如下:
在旗舰模型 Qwen2.5-VL-72B-Instruct 的测试中,它在一系列涵盖多个领域和任务的基准测试中表现出色,包括大学水平的问题、数学、文档理解、视觉问答、视频理解和视觉 Agent。值得注意的是,Qwen2.5-VL 在理解文档和图表方面具有显著优势,并且能够作为视觉 Agent 进行操作,而无需特定任务的微调。
2.1.2 数据合成及训练
经过第一阶段探索,最终选择Qwen2.5-VL-72B 作为数据合成的模型,共计合成约了 2w 条想法和 6.5k 条视频,同时进行送标,人工标注标签相关性,保证标签的可用率。整体训练流程如下图:
对内容进行标注分为强相关 2、弱相关 1、不相关 0 三档,分别对单独强相关数据和混合强弱相关数据在 Qwen2.5vl-7b 和 Qwen2.5vl-3b 进行微调并评估。
2.1.3 效果评估
评估结论:在强相关数据上sft 的 qwen2.5-vl-3b 效果在有图想法上优势较为明显,准确率为80.23%;在无 ocr 信息的视频上也相较于线上版本有突出优势。
通过最终评估并结合成本考虑选择基于强相关数据微调的qwen2.5vl-3b版本的模型作为高维标签多模态产出模型,产出结果示例如下:
2.2 多模态通用隐式向量
多模态大模型发展迅速,将视觉理解模型与大语言模型结合,展现出了强大的多模态内容理解能力。我们考虑基于多模态大模型构建多模态内容表征模型,构造合成数据,训练模型提取多模态通用隐式向量。
2.2.1 模型架构与训练
我们采用的Qwen2-VL [1] 作为基座多模态模型,该模型由视觉编码模型、映射模型和自回归大语言模型三部分组成。Qwen2-VL中通过引入2D旋转位置编码,支持了动态原生分辨率输入,将不同尺寸的输入图片灵活地编码为不同长度的特征token。并通过引入多模态旋转位置编码(M-RoPE),更好地表示文本、图片、视频三种不同输入数据模态的位置信息。虽然Qwen2-VL具有强大的多模态理解能力,但其训练目标是结合对视觉内容的理解,自回归地生成自然语言回复,并非针对嵌入表征学习进行优化。因此,需要针对特定任务进行微调,以增强模型的表征能力。
|
多模态嵌入模型结构和训练目标
|
训练时,我们使用7b的基座模型,采用参数高效微调方法LoRA [7],rank为16,多模态模型中视觉编码模型、映射模块和自回归语言大模型三部分的参数都进行更新。
2.2.2 数据合成
如何构建高质量的配对数据是多模态嵌入模型训练的关键。最近有许多工作 [4, 5, 6] 在这方面展开了研究,他们大多聚焦于英文图文数据的构建。为了在知乎站内各场景中应用多模态嵌入能力,我们需要构建大规模中文图文训练数据。最近的超大多模态大模型 [2, 7] 展现出了强大的图文内容理解和推理的能力,鉴于此,我们使用下面两种策略合成数据,来训练模型的嵌入表示能力。
1)用多模态大模型基于源图片合成中文查询-正样本配对数据
具体来说,我们使用Qwen2.5-VL-72B [6] 模型,对来自开源数据集和知乎站内的图片数据进行深度思考的数据合成。如下图所示,在合成数据的过程中,通过提示词引导模型先对图片从整体内容描述、物体细节、背景特征等方面进行全面的视觉理解,然后基于图片内容合成查询、正例和困难负例,最后,让模型对合成的数据进行自我检查,思考可以改进的地方并进行精修。最终的精修配对数据将被用于多模态表征模型的训练。
|
数据合成流程
|
2)用多模态大模型对M1(上述数据训练的模型)的候选结果进行 ReRank,合成配对数据
具体来说,我们使用上述数据训练的模型M1,对知乎站内图文数据进行召回,然后用Qwen2.5-VL-72B [6] 模型进行 ReRank合成查询、正例和困难负例。在ReRank过程中,我们通过提示词让MLLM 对输入的两篇Document 进行相关性打分,分值越高相关性越强,则作为正样本对,反之则作为难负样本对。
2.2.3 评测
近期,有工作 [8] 提出了多模态嵌入基准MMEB,其中包括分类、检索、视觉问答、视觉定位四大类元任务,共包含20个训练数据集,36个评估数据集,是目前主流的多模态嵌入基准。我们将MMEB-eval基准翻译成了中文,并进行了精校,用于评估多模态嵌入模型的中文图文表征能力。
下表展示了基于上述模型结构、训练方式和合成数据的训练结果,基线模型是GME 7b [4]。可以看到,相比于同等规模的基线模型,在MMEB-eval-zh基准上,整体有7.4%(49.7 -> 53.4)的提升,在各个元任务上,也大部分有1-9个百分点的提升。说明了合成数据对中文能力提升的有效性。
3. 多模态技术在推荐场景的落地应用及效果
内容标签和Embedding表征在推荐系统中有着广泛的应用。高维标签可用于标签召回和模型特征,Embedding可用于 I2I 召回、模型特征,以及 DPP 等多样性算法中。标签召回、I2I 召回、多样性算法的应用方式比较通用,不再单独介绍。
3.1 多模态高维显式标签在推荐场景的落地应用
我们把高维显式标签应用在了新内容的标签召回上,带动新内容的曝光互动率提升 3.26%。
另外,我们将高维显式标签直接作为内容的 ID 类特征接入排序模型、作为行为序列的 side-info 特征用于提升长尾内容的行为刻画能力,均取得了不错的收益。
3.2 多模态通用表征结果在推荐场景的落地应用
ID特征(如用户ID、物品ID)因结构简单且易于嵌入表示,已成为协同过滤等传统推荐模型的核心输入。然而如何将多模态表征更好地融入推荐系统,仍是一个亟待深入探索的开放课题。
业界常见的做法是对齐、压缩为低维向量以拼接到推荐模型中使用。我们也尝试过直接将多模态的向量直接融合到模型中,效果不佳。
|
多模态向量接入模型
|
此后,我们尝试通过量化及微调两种方式,分别对多模态表征进行提纯、推荐信息融合,成功应用于推荐流程的各个环节。
|
整体架构
|
3.2.1 多模态表征量化
考虑到内容本身存在层级关联关系,我们使用了基于RQ-VAE [9] 的压缩量化方式,这种方式在一定程度上保留了原始多模态表征的语义信息,同时作为ID类特征输入到推荐模型中,Embedding层是可以学习的。
这种量化方式有很多优势:
聚类粒度灵活
接入方式灵活,且成本低
更新相对容易
我们预设内容可以映射到带有N层级联分类的空间上,这些层级大小分别为L1,L2,L3...Ln。
|
量化过程
|
3.2.1.1 codebook构造
以上步骤可表示为:
.......
3.2.1.2 生成残差隐式语义ID
得到 L 个 codebook
之后,接下来将每个Item的多模态表征进行量化,从第一层开始基于当前的残差表征在对应层的codebook中查找最近邻的质心:
并将该质心的下标作为该item在L层的id。
每经过一层的残差网络,都会产生最近邻的表征以及id,最终产出带有层级关系的ID:
以及带有当前层残差信息的向量表征:
3.2.1.3 训练以及部署
模型损失:
,其中:
部署:模型训练一次,批量回刷后,对新内容实时预测。
3.2.1.4 离线评估
我们通过大量的人工标注,来反向验证了这种自回归的量化编码方式。结果证明:最终的编码分类较可靠,在每个层级上都能准确的提炼出内容的语义相似性。
另外,我们采用Recall@TopK的方式,来进行了相似性评估。结果证明:在最细粒度的召回case上准确率达到100%,在次细粒度上准确率达到71%。
|
隐式ID的层级关系
|
3.2.1.5 线上收益
我们将预训练的隐式语义ID分别应用在了新内容的各个推荐环节,标签召回、作为特征加入模型等等。
|
pretrainID接入模型
|
取得了不错的收益:
|
|
ctr相对增长116.31%
|
曝光互动率相对增长249.57%
|
3.2.2 多模态表征微调
多模态表征包含着内容的文本以及图片等多个模态的基础信息,但是缺乏了推荐领域的协同信息。因此我们也探索了多种微调的方式,来得到推荐领域更适配的多模态表征。
方式一:
使用推荐领域的协同信息干预多模态表征。具体做法是将多模态表征作为内容侧的唯一特征,接入到传统的推荐ctr模型预估中,以此来得到包含模态信息及协同信息的低维表征。
|
多模态微调方式一
|
方式二:
使用itemCF、双塔item表征来构造正样本,在rank的300~1200中随机选取负样本,使用这些doc pair的多模态通用表征来进行对比学习,以获得协同信息和多模态信息的融合。
3.2.2.1 离线评估
语义相似性
我们通过Recall@TopK的方式,来进行基础语义的相似性评估。结果证明:通过微调表征召回的近邻内容,在模态语义上仍极大程度保持着原来的相似性。
通过共现数据,我们筛选出了一些各人群上协同概率较低的内容分别记为集合A,集合B,将集合AB的内容进行任意组合作为<doc pair>来评估微调前后的相似性:
|
|
图中行列的交叉点代表集合A与集合B中任意两个item的相似度,颜色由「绿->黄->红」代表「不相关->相关」。
以上两张图片证明,在协同概率较低的内容上,微调后的数据保留并且拉大了语义相关性的差异。
l协同相似性
另外,我们筛选出CF队列的trigger内容和召回并点击的内容作为<doc pair>,对这些<doc pair>使用微调表征来计算相似性。结果证明:微调表征也包含了协同的信息。
例如以下两个内容,属于不同的领域,在语义含义上具有非常大的差别,但在特定人群上的共现点击频率很高。多模态的相似性很低,但微调后的表征相似性较高。
|
语义不相关但共现点击频率较高的内容对
|
3.2.2.3 线上收益
我们将微调表征应用在了新内容的近邻召回上,带动新内容的ctr提升2.8%,曝光互动率提升9.2%。
4. 总结展望
大模型凭借其强大的语义理解能力和跨域泛化能力,为传统推荐系统带来了新的技术突破和应用范式。本文系统性地验证了多模态大模型在知乎推荐场景的落地价值。通过构建多模态标签体系与通用表征模型,实现了推荐效果的显著提升。
多模态标签和向量生成:基于大模型的多模态信息理解能力,显著提升了对内容信息的建模准确性
残差离散化表征:通过RQ-VAE层级编码,实现了高维向量到隐式ID的保真压缩
协同-语义双驱动微调:在保持90%视觉相似性的同时,有效提升了内容的推荐共现相关性
大模型在推荐系统中的应用仍处于早期阶段,未来将在技术深化与场景拓展中释放更大潜力,推动推荐系统向更智能、个性化、可信赖的方向演进。
5. 参考文献
1.Wang, Peng, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen et al. "Qwen2-vl: Enhancing vision-language model's perception of the world at any resolution." arXiv preprint arXiv:2409.12191 (2024).
2.Oord, Aaron van den, Yazhe Li, and Oriol Vinyals. "Representation learning with contrastive predictive coding." arXiv preprint arXiv:1807.03748 (2018).
3.Chen, Haonan, Liang Wang, Nan Yang, Yutao Zhu, Ziliang Zhao, Furu Wei, and Zhicheng Dou. "mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data." arXiv preprint arXiv:2502.08468 (2025).
4.Zhang, Xin, Yanzhao Zhang, Wen Xie, Mingxin Li, Ziqi Dai, Dingkun Long, Pengjun Xie, Meishan Zhang, Wenjie Li, and Min Zhang. "GME: Improving Universal Multimodal Retrieval by Multimodal LLMs." arXiv preprint arXiv:2412.16855 (2024).
5.Zhou, Junjie, Zheng Liu, Ze Liu, Shitao Xiao, Yueze Wang, Bo Zhao, Chen Jason Zhang, Defu Lian, and Yongping Xiong. "MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval." arXiv preprint arXiv:2412.14475 (2024).
6.Bai, Shuai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang et al. "Qwen2. 5-vl technical report." arXiv preprint arXiv:2502.13923 (2025).
7.Hu, Edward J., Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. "Lora: Low-rank adaptation of large language models." ICLR 1, no. 2 (2022): 3.
8.Jiang, Ziyan, Rui Meng, Xinyi Yang, Semih Yavuz, Yingbo Zhou, and Wenhu Chen. "Vlm2vec: Training vision-language models for massive multimodal embedding tasks." arXiv preprint arXiv:2410.05160 (2024).
9.Rajput, S., Mehta, N., Singh, A., Keshavan, R. H., Vu, T., Heldt, L., Hong, L., Tay, Y., Tran, V. Q., Samost, J., Kula, M., Chi, E. H., & Sathiamoorthy, M. (2023, November 3). Recommender systems with Generative Retrieval. arXiv.org. https://arxiv.org/abs/2305.05065












仅使用多模态表征计算内容相关性
使用微调后的表征计算内容相关性