大数跨境
0
0

NeurIPS 2025 | ByteDance推出MERIT:首个支持交错多条件查询的多语言语义检索数据集

NeurIPS 2025 | ByteDance推出MERIT:首个支持交错多条件查询的多语言语义检索数据集 我爱计算机视觉
2025-11-29
0
导读:打破单一语言、单一图像、单一条件的局限,并且提出CORAL,将表征重建引入到对比学习中增强表征学习能力

  • 主页:https://merit-2025.github.io/
  • 论文:https://arxiv.org/abs/2506.03144
  • 代码:https://github.com/weichow23/merit

引言

语义检索是现代AI应用的核心任务,不仅能够实现精准的用户召回,还可以缓解多模态大语言模型(MLLM)生成内容的不准确性。然而,现有的语义检索研究存在明显局限:仅支持单一语言、单张图像或单一检索条件,且许多方法未能充分利用视觉信息的表达能力——即使将图像替换为文字描述,性能也不会明显下降。

但在实际应用场景中,产品检索任务往往涉及交错的多条件查询(如特定的图案、颜色、材质等),许多属性需要通过图像进行视觉表达。例如,用户可能想要搜索"与产品#1相同颜色、与产品#2相同图案的商品",这需要模型同时理解多张图像和文本描述。

图1:现有数据集与MERIT的对比。左侧:以往工作局限于单条件、单图像、单语言场景。右侧:MERIT支持多语言、多图像、多条件的语义检索。
图1:现有数据集与MERIT的对比。左侧:以往工作局限于单条件、单图像、单语言场景。右侧:MERIT支持多语言、多图像、多条件的语义检索。

为了解决这一问题,来自字节跳动和浙江大学的研究团队提出了MERIT——首个支持交错多条件查询的多语言语义检索数据集。该数据集包含320,000个查询、135,000个产品,涵盖5种语言(英语、马来语、印尼语、越南语、泰语)和7个产品类别(服装电子产品、箱包、家具、食品、珠宝等)。以及创新的CORAL训练框架来帮助更好地提升交错的多模态检索的性能。

MERIT已被NeurIPS 2025接收,论文、代码和数据集均已公开。

MERIT:突破性的多语言多条件检索基准

图2:交错多条件语义检索的示例。MERIT支持多语言、多图像、多条件的组合查询,反映了真实世界中用户通过文本和图像指定多个属性的产品搜索场景。
图2:交错多条件语义检索的示例。MERIT支持多语言、多图像、多条件的组合查询,反映了真实世界中用户通过文本和图像指定多个属性的产品搜索场景。

数据集概览

图3:现有数据集与MERIT的对比。左侧:以往研究局限于单一条件、单张图像、单一语言。右侧:MERIT支持多语言、多图像、多条件的交错查询,更贴近真实应用场景。
图3:现有数据集与MERIT的对比。左侧:以往研究局限于单一条件、单张图像、单一语言。右侧:MERIT支持多语言、多图像、多条件的交错查询,更贴近真实应用场景。
图4:MERIT数据集统计信息,包含320,000个查询、116个独特属性、2,594个属性值。产品类别和语言分布,覆盖服装、电子产品、箱包、家具、食品、珠宝等7大类别。
图4:MERIT数据集统计信息,包含320,000个查询、116个独特属性、2,594个属性值。产品类别和语言分布,覆盖服装、电子产品、箱包、家具、食品、珠宝等7大类别。

MERIT是首个真正意义上的多语言、多图像、多条件语义检索数据集,具有以下特点:

  • 320,000个检索查询对,涵盖135,000个产品
  • 5种语言:英语、马来语、印尼语、越南语、泰语
  • 7大产品类别:服装、电子产品、箱包、家具、食品、珠宝等
  • 116种独特属性,2,594个属性值
  • 交错式多条件查询:支持同时使用文本和多张图像指定检索条件

与现有数据集相比,MERIT的独特之处在于:

  1. 视觉必要性:当移除图像信息时,检索性能下降73.9%,证明视觉信息不可或缺
  2. 真实场景模拟:每个查询可包含2-4个条件,真实反映用户的检索需求
  3. 高质量标注:投入10,000小时人工标注,经过多轮自动和人工过滤

数据构建流程

图5:MERIT的数据标注流程。我们通过开放集去重和多轮过滤程序确保数据多样性和质量,包含4个步骤:高质量产品选择、产品标注、搜索查询组合、过滤与精炼。
图5:MERIT的数据标注流程。我们通过开放集去重和多轮过滤程序确保数据多样性和质量,包含4个步骤:高质量产品选择、产品标注、搜索查询组合、过滤与精炼。

为了确保数据质量,MERIT的构建经历了严格的四步流程:

  1. 高质量产品选择:从6个东南亚国家的内部数据集中精选热门产品,使用GPT-4o生成产品标题,并基于美学评分进行过滤
  2. 产品标注:采用开放式标注方法,获得116种独特属性和2,594个属性值,实现细粒度的产品描述
  3. 搜索查询组合:使用三种采样方法(常规均匀采样、属性均匀采样、高相似度优先采样)构建检索对,并支持冷启动扩展
  4. 过滤与精炼:通过自动过滤(规则检查、统计方法)和人工精炼(语义一致性、实用相关性)两阶段流程,确保数据集质量

整个标注过程投入了10,000小时的人工劳动,所有数据都经过了精通全部5种语言的标注员的人工审核。

现有模型的表现如何?

研究团队在MERIT上测试了9个最先进的检索模型,结果令人深思:

图6:不同方法在MERIT上进行检索的性能比较
图6:不同方法在MERIT上进行检索的性能比较
图7:(a) 视觉必要性测试:在MERIT上移除图像会导致73.9%的性能下降,证明视觉信息不可或缺。(b) 分布外场景测试结果。
图7:(a) 视觉必要性测试:在MERIT上移除图像会导致73.9%的性能下降,证明视觉信息不可或缺。(b) 分布外场景测试结果。

关键发现:

  1. 性能远低于预期:即使是表现最好的模型,Recall@1也仅有12.05%
  2. 视觉信息至关重要:在MERIT上,移除图像会导致73.9%的性能下降(而在其他数据集上影响很小)
  3. 交错输入支持不足:将多张图像拼接成单图的性能,竟然比序列输入高出119.7%(R@5指标)
  4. 语言差异不明显:不同语言的性能差异较小,说明问题不在于语言理解

问题出在哪里?

图8:(a) 不同语言的检索性能(R@1)。(b) 错误类型分布:属性错误和视觉理解错误占比最大。
图8:(a) 不同语言的检索性能(R@1)。(b) 错误类型分布:属性错误和视觉理解错误占比最大。

通过对500个错误案例的深入分析,研究团队发现了现有方法的核心缺陷:

  • 忽略条件细节:模型只关注全局语义信息,忽略了查询中的具体条件元素
  • 属性提取失败:无法正确提取特定属性(如"相同的材质"、"相同的图案")
  • 视觉理解错误:对图像中的视觉特征(如纹理、颜色)理解不准确

这些问题的根源在于:现有的检索模型通常只在[EOS]标记处进行对比学习监督,过度依赖全局对比学习,而缺乏对细粒度条件信息的保留。

CORAL:对比-重建双管齐下的检索框架

针对上述问题,研究团队提出了CORAL(Contrastive-reconstruction for multimodal retrieval)——一个创新的微调框架,将多模态大语言模型(MLLM)适配为检索模型。

图9:CORAL框架概览。损失函数包含三个部分:对比学习损失、视觉重建损失和掩码语言建模损失。训练时同时重建查询和对应的正样本。
图9:CORAL框架概览。损失函数包含三个部分:对比学习损失、视觉重建损失和掩码语言建模损失。训练时同时重建查询和对应的正样本。

核心设计

CORAL的训练目标包含三个关键组件:

  1. 对比学习损失(Lcl):使用InfoNCE损失进行监督对比学习,提取全局语义
  1. 视觉重建损失(Lmse):通过重建被掩码的视觉嵌入,保留细粒度的视觉条件信息
  1. 掩码语言建模损失(Lmlm):重建被掩码的文本信息,保持语言理解能力

最终的训练损失为

关键创新在于掩码嵌入重建机制:

  • 在训练过程中,对注意力图进行模态级别的掩码
  • 使用解码器重建原始的未掩码嵌入
  • 同时处理查询和正样本,确保条件信息的准确提取

实验结果

MERIT上的表现

图10:在MERIT上的消融实验结果(基于Qwen2.5-VL)。CORAL相比仅使用对比学习的基线方法,R@1提升了45.9%。
图10:在MERIT上的消融实验结果(基于Qwen2.5-VL)。CORAL相比仅使用对比学习的基线方法,R@1提升了45.9%。

实验结果表明:

  1. 显著性能提升:CORAL相比传统对比学习方法,R@1提升了45.9%
  2. 嵌入重建的重要性:仅添加视觉重建或语言重建都能带来性能提升
  3. 多模态重建最优:同时重建视觉和语言信息效果最佳
  4. 序列输入更优:经过训练后,序列输入比图像拼接提升14.3%
  5. 全参数微调效果最好:由于检索任务与预训练目标差异较大,全参数微调优于LoRA

泛化能力验证

为了验证CORAL的泛化能力,研究团队在8个已建立的检索基准上进行了测试:

图11:CORAL在8个标准检索任务上的表现对比
图11:CORAL在8个标准检索任务上的表现对比

结果显示,CORAL在所有8个任务上都取得了一致的性能提升,特别是在VisDial任务上实现了181%的提升,充分证明了方法的有效性和泛化能力。

分布外场景测试

研究团队还测试了模型在三种分布外(OOD)场景下的表现(见图7(b)):

  • 语言OOD:测试未见过的语言
  • 类别OOD:测试未见过的产品类别
  • 属性OOD:测试未见过的属性组合

结果表明,CORAL在所有OOD场景下都展现出良好的泛化能力,证明了数据集的多样性和方法的鲁棒性。

结论与展望

MERIT作为首个多语言交错多条件语义检索数据集,填补了该领域的空白。通过大规模实验,研究团队揭示了现有检索模型的局限性,并提出了CORAL框架作为解决方案。

实验结果表明,CORAL不仅在MERIT上实现了45.9%的性能提升,还在8个标准检索基准上展现出强大的泛化能力。这一工作为多模态检索研究提供了新的数据资源和方法论基础,有望推动电商搜索、智能推荐、多模态问答等实际应用的发展。

作者介绍

本研究由字节跳动国际电商团队和浙江大学合作完成。论文的共同第一作者包括字节跳动研究员周炜、高源和李林峰,通讯作者为浙江大学的李俊成助理教授。其他核心作者来自字节跳动电商团队和浙江大学,涵盖了多模态学习、信息检索和自然语言处理等多个研究方向。

【声明】内容源于网络
0
0
我爱计算机视觉
探寻CV新知,发现AI价值
内容 3637
粉丝 0
我爱计算机视觉 探寻CV新知,发现AI价值
总阅读561
粉丝0
内容3.6k