
-
主页:https://merit-2025.github.io/ -
论文:https://arxiv.org/abs/2506.03144 -
代码:https://github.com/weichow23/merit
引言
语义检索是现代AI应用的核心任务,不仅能够实现精准的用户召回,还可以缓解多模态大语言模型(MLLM)生成内容的不准确性。然而,现有的语义检索研究存在明显局限:仅支持单一语言、单张图像或单一检索条件,且许多方法未能充分利用视觉信息的表达能力——即使将图像替换为文字描述,性能也不会明显下降。
但在实际应用场景中,产品检索任务往往涉及交错的多条件查询(如特定的图案、颜色、材质等),许多属性需要通过图像进行视觉表达。例如,用户可能想要搜索"与产品#1相同颜色、与产品#2相同图案的商品",这需要模型同时理解多张图像和文本描述。
为了解决这一问题,来自字节跳动和浙江大学的研究团队提出了MERIT——首个支持交错多条件查询的多语言语义检索数据集。该数据集包含320,000个查询、135,000个产品,涵盖5种语言(英语、马来语、印尼语、越南语、泰语)和7个产品类别(服装电子产品、箱包、家具、食品、珠宝等)。以及创新的CORAL训练框架来帮助更好地提升交错的多模态检索的性能。
MERIT已被NeurIPS 2025接收,论文、代码和数据集均已公开。
MERIT:突破性的多语言多条件检索基准
数据集概览
MERIT是首个真正意义上的多语言、多图像、多条件语义检索数据集,具有以下特点:
-
320,000个检索查询对,涵盖135,000个产品 -
5种语言:英语、马来语、印尼语、越南语、泰语 -
7大产品类别:服装、电子产品、箱包、家具、食品、珠宝等 -
116种独特属性,2,594个属性值 -
交错式多条件查询:支持同时使用文本和多张图像指定检索条件
与现有数据集相比,MERIT的独特之处在于:
-
视觉必要性:当移除图像信息时,检索性能下降73.9%,证明视觉信息不可或缺 -
真实场景模拟:每个查询可包含2-4个条件,真实反映用户的检索需求 -
高质量标注:投入10,000小时人工标注,经过多轮自动和人工过滤
数据构建流程
为了确保数据质量,MERIT的构建经历了严格的四步流程:
-
高质量产品选择:从6个东南亚国家的内部数据集中精选热门产品,使用GPT-4o生成产品标题,并基于美学评分进行过滤 -
产品标注:采用开放式标注方法,获得116种独特属性和2,594个属性值,实现细粒度的产品描述 -
搜索查询组合:使用三种采样方法(常规均匀采样、属性均匀采样、高相似度优先采样)构建检索对,并支持冷启动扩展 -
过滤与精炼:通过自动过滤(规则检查、统计方法)和人工精炼(语义一致性、实用相关性)两阶段流程,确保数据集质量
整个标注过程投入了10,000小时的人工劳动,所有数据都经过了精通全部5种语言的标注员的人工审核。
现有模型的表现如何?
研究团队在MERIT上测试了9个最先进的检索模型,结果令人深思:
关键发现:
-
性能远低于预期:即使是表现最好的模型,Recall@1也仅有12.05% -
视觉信息至关重要:在MERIT上,移除图像会导致73.9%的性能下降(而在其他数据集上影响很小) -
交错输入支持不足:将多张图像拼接成单图的性能,竟然比序列输入高出119.7%(R@5指标) -
语言差异不明显:不同语言的性能差异较小,说明问题不在于语言理解
问题出在哪里?
通过对500个错误案例的深入分析,研究团队发现了现有方法的核心缺陷:
-
忽略条件细节:模型只关注全局语义信息,忽略了查询中的具体条件元素 -
属性提取失败:无法正确提取特定属性(如"相同的材质"、"相同的图案") -
视觉理解错误:对图像中的视觉特征(如纹理、颜色)理解不准确
这些问题的根源在于:现有的检索模型通常只在[EOS]标记处进行对比学习监督,过度依赖全局对比学习,而缺乏对细粒度条件信息的保留。
CORAL:对比-重建双管齐下的检索框架
针对上述问题,研究团队提出了CORAL(Contrastive-reconstruction for multimodal retrieval)——一个创新的微调框架,将多模态大语言模型(MLLM)适配为检索模型。
核心设计
CORAL的训练目标包含三个关键组件:
-
对比学习损失(Lcl):使用InfoNCE损失进行监督对比学习,提取全局语义
-
视觉重建损失(Lmse):通过重建被掩码的视觉嵌入,保留细粒度的视觉条件信息
-
掩码语言建模损失(Lmlm):重建被掩码的文本信息,保持语言理解能力
最终的训练损失为
关键创新在于掩码嵌入重建机制:
-
在训练过程中,对注意力图进行模态级别的掩码 -
使用解码器重建原始的未掩码嵌入 -
同时处理查询和正样本,确保条件信息的准确提取
实验结果
MERIT上的表现
实验结果表明:
-
显著性能提升:CORAL相比传统对比学习方法,R@1提升了45.9% -
嵌入重建的重要性:仅添加视觉重建或语言重建都能带来性能提升 -
多模态重建最优:同时重建视觉和语言信息效果最佳 -
序列输入更优:经过训练后,序列输入比图像拼接提升14.3% -
全参数微调效果最好:由于检索任务与预训练目标差异较大,全参数微调优于LoRA
泛化能力验证
为了验证CORAL的泛化能力,研究团队在8个已建立的检索基准上进行了测试:
结果显示,CORAL在所有8个任务上都取得了一致的性能提升,特别是在VisDial任务上实现了181%的提升,充分证明了方法的有效性和泛化能力。
分布外场景测试
研究团队还测试了模型在三种分布外(OOD)场景下的表现(见图7(b)):
-
语言OOD:测试未见过的语言 -
类别OOD:测试未见过的产品类别 -
属性OOD:测试未见过的属性组合
结果表明,CORAL在所有OOD场景下都展现出良好的泛化能力,证明了数据集的多样性和方法的鲁棒性。
结论与展望
MERIT作为首个多语言交错多条件语义检索数据集,填补了该领域的空白。通过大规模实验,研究团队揭示了现有检索模型的局限性,并提出了CORAL框架作为解决方案。
实验结果表明,CORAL不仅在MERIT上实现了45.9%的性能提升,还在8个标准检索基准上展现出强大的泛化能力。这一工作为多模态检索研究提供了新的数据资源和方法论基础,有望推动电商搜索、智能推荐、多模态问答等实际应用的发展。
作者介绍
本研究由字节跳动国际电商团队和浙江大学合作完成。论文的共同第一作者包括字节跳动研究员周炜、高源和李林峰,通讯作者为浙江大学的李俊成助理教授。其他核心作者来自字节跳动电商团队和浙江大学,涵盖了多模态学习、信息检索和自然语言处理等多个研究方向。

