多模态技术在超级汇川场景的探索- 大数跨境

首页

多模态技术在超级汇川场景的探索

武汉天行健网络

2023-05-09

导读：基于多模态的超级汇川投放

栏目 | 超级汇川技术汇

技术干货 | 技术交流

【超级汇川技术汇】是超级汇川广告平台推出的技术交流栏目，不定期向行业分享平台的技术思考和技术新进展，希望促进更多数字营销技术的行业交流，推动智能营销的发展

广告推荐常用的多模态场景

随着互联网技术的不断发展，广告推荐成为了各大互联网平台不可或缺的一部分。传统的广告推荐通常是基于用户的搜索内容、用户画像等来为用户推荐相应的广告内容。然而，这种单一的推荐方式存在许多问题，比如过度关注用户的行为数据而忽略了其他重要信息，导致推荐结果缺乏个性化、多样性和相关性，原因会在下一个篇章中具体分析。为了解决这些问题，多模态技术被引入到广告推荐中，取得了良好的效果。

多模态技术是指利用多种不同类型的数据来进行分析和决策的技术。在广告推荐中，多模态技术通常依赖图像、视频、语音、文本等多种形式的数据。这些数据可以为推荐系统提供更加全面和准确的用户画像，从而为用户提供更加符合其需求和兴趣的广告推荐。在实际应用中，多模态技术已经被广泛应用于各大互联网平台的广告推荐中。以下是几个具体的应用案例：

●图像识别技术：利用图像识别技术可以从用户上传的图片中识别出图片中的内容，进而推荐与其相关的广告内容。例如用户在社交平台上发布了一张关于瑜伽的图片，推荐系统可以根据图片内容为用户推荐相关的瑜伽产品或服务的广告。

●视频推荐技术：对于视频平台，用户的观看历史数据是一个非常重要的数据来源。然而，传统的基于历史行为数据的推荐方式可能忽略了视频内容的相关信息，导致推荐结果缺乏多样性。多模态技术可以将视频内容作为一个重要的数据源，利用视频中的音频、图像等信息来为用户推荐相关的广告内容。

●语音识别技术：随着语音助手的普及，语音数据也成为了广告推荐的重要数据来源。利用语音识别技术，可以对用户上传的语音进行分析和识别，从而为用户提供更加个性化和精准的广告推荐。

总之，多模态技术的应用为广告推荐带来了全新的思路和方法，可以帮助推荐系统更加全面地了解用户，从而为用户提供更加个性化和符合需求的广告推荐服务。未来随着技术的不断发展和创新，多模态在广告推荐上的应用会更加广泛和成熟。

DPA落地背景

DPA（Dynamic Product Ads，动态商品广告）聚焦于海量商品的批量投放，动态构建个性化创意，有效解决了客户流量获取与转化提升的问题，相较于传统query-关键词-创意投放路径有如下优势：

●丰富的展示内容：电商广告主可以提供更加丰富的商品图片，包括细节图、实物图、产品介绍图等，这些图片可以更直观地展示产品的外观、材质、功能等特点，图片的内容也更加核心。

●更好的视觉效果：电商广告主提供的商品图片可以经过专业的拍摄和后期处理，具有更好的视觉效果和吸引力，具有更好的分辨率。

●更快的迭代速度：电商广告主可以更快地更新商品图片，可以在第一时间展示新上架的商品，紧跟潮流，能够提供更丰富的数据。

●更高的转化率：消费者在购买商品时往往会参考商品图片，如果商品图片能够清晰地展示产品的特点和优点，可以更容易地吸引消费者的注意力，促进购买行为。

目前的商品是如何投放的？一个商品要想在线上展示，如图1所示，离线需经过如下几步：

1. 上传商品库，提供商品的描述信息；

2. 在创意层级设置筛选条件，将商品与创意关联；

3. 通过计划下的买词字面，召回绑定的合适商品；

4. 计算买词与商品的相关性，相关性达标的商品会挂载在相关的买词下

图1. DPA场景流程

问题分析

目前在搜索广告召回上，无论是精确匹配、短语匹配，还是宽泛匹配方式，大部分是以字面为载体，语义为核心进行相应的召回和过滤，缺乏图像等特征的利用，只使用单模信息会存在如下问题：

●影响广告召回率：纯文本召回只能通过query匹配关键词来触发广告，有的文本长度过长，商品核心成分较短，导致召回率被影响，广告展示曝光的机会少，在训练阶段通过引入图片商品特征，可以建模这些长文本和商品之间的关系，提高商品的召回率。

●用户体验被影响：由于文本意图识别不准确导致商品广告匹配不准确，用户可能会看到与自己搜索关键词不相关的广告，影响用户体验。

●影响广告投放效果：在广告匹配不准确的情况下，会严重影响广告的点击率、转化率等指标，对广告主投放的广告效果造成影响。

●算法扩展受限：算法只能基于文本匹配。虽然可以对搜索词进行改写来改善结果，但这种方法有局限的，而多模态模型可以拓展模型的上限，提升召回的天花板。

例如搜索“篮球”出现“篮球鞋”等商品可以认为合理，但如搜索"连衣裙"召回"制作连衣裙设备"等商品，行业跨度范围较大，属于召回有偏差，不仅影响用户体验，也会影响广告主投放效果。

同时，电商场景上广告主提供了海量的高质量的商品图片数据，因此我们考虑优先在DPA场景落地，但是在多模实践过程中有一些常见的问题：

●模型准确性和性能的问题：多模态技术通常基于深度学习和神经网络技术，需要大量的数据和算力进行优化和训练，但是在实践中模型的准确性和效果可能并不理想，需要对模型进行优化和调整。通常这些模型体积较大，在线上前向推理的过程中计算量较大，而线上的场景对实时性要求又比较高，因此如何去平衡这两者的关系是一大难题。

●数据集的难以获取和质量问题：多模态技术需要大量的数据集来支撑模型的训练和优化，但有些数据集可能难以获取，且数据质量也可能不理想，需要在数据集的选择和处理上进行更多的工作。这也就是我们为什么采用DPA场景来作为多模态应用的第一块“实验田”的原因。

●数据存储瓶颈问题：因训练数据为大量图文对，而图片的存储和训练需要大量的硬盘和内存，1000w张图片的存储空间就可以达到1TB，存储和内存消耗问题也是训练多模态模型时经常遇到的问题。

解决方案

为了在超级汇川上引入多模态召回/相关性方案，我们的解决思路如下：

1）文本-图文预训练：遵循业界常见的双流模型框架CLIP，采用超级汇川场景下特有的大量的图文数据进行预训练，并对文本标签采用生成模型进行扩充，提高模型在下游的泛化性能，分布式训练DPA-CLIP模型

2）多模态模型和召回相关性等多任务联合训练：针对搜索广告场景下的召回和相关性任务，在下游设计了独有的召回和相关性联合Loss，采用少量的标注样本进行训练，使得预训练模型更加贴近向量召回和相关性任务

3）在工程方案上，在有限的资源下采用GPU集群预估和缓存机制相结合的方式满足了搜索场景时延低、反应快等需求

下面从训练数据、预训练模型、多任务联动模型以及工程解决方案这几方面做详细介绍

训练数据

多模态模型需要将来自不同模态的信息进行融合，以生成更全面和准确的结果。因此，需要收集足够的数据，以确保模型能够学习到不同模态之间的相关性和差异性。我们的数据包含三个部分：

原始数据

利用部门历史积累商品数据源，数量级在1亿+，这些商品数据不仅包括图片，还包括商品多级类目、商品名称、商品描述等文本数据，我们将这些文本和商品图像构造成文本-图像对用于模型训练，除此之外，我们还利用了开放的电商数据集MUGE，这些直接获取的结构化数据我们统称为原始数据。

模版生成数据

原始数据中大部分类目都比较短，如"电风扇"、"电冰箱等，因此在训练的时候，为了让模型重点学习电商领域的图文信息，对类目字面进行了修改扩充，在这里采用了zero-shot推理阶段常用的prompt，属于NLP领域比较火的一个研究：prompt learning或者prompt engineering，具体可以见论文：Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing，简单来说，prompt learning的核心是通过构建合适prompt（提示）来使预训练模型能够直接应用到下游任务

模型生成文本

线上的用户搜索的query是多种多样的，很多文本的字面各不相同，但是它们指向的核心商品是相同的，主要是受用户的兴趣爱好、职业、教育等属性的影响，大家对于相同的商品的描述也不尽相同。

为了让模型的泛化能力更强，让一个商品图片匹配上更多与其相关的query，我们采用文本生成模型去对原始的文本进行生成，这里的文本生成模型是采用了千万级别的高点击的query-广告购买词pair对训练的语义模型，模型以开源的BERT为基础，利用对比学习和UniLM的思想设计了兼具检索和生成于一体的任务，文本生成模型结构如图2所示，它同时具备相似句生成和相似句检索能力。

图2. 文本生成模型结构

文本生成能力方面，人工标注评估相关性和流畅度均在99%+。在文本检索方面，相同的检索query和检索库，区别在于文本的表征，检索的效果相对于多任务微调的BERT，人工标注相关性绝对值 +3%。

预训练模型

多模态模型

为了训练增强版本的DPA-CLIP，在预训练模型的选型上采用阿里达摩院利用2亿+图文对训练的中文CLIP模型作为初始化模型，这是用文本作为监督信号来训练图像和文本的多模态模型，即一种基于对比文本-图像对的预训练方法，也是一种基于对比学习的多模态模型，与CV中的一些对比学习方法如Moco和Simclr不同的是，CLIP的训练数据是文本-图像对：一张图像和它对应的文本描述，如图3所示，这里希望通过对比学习，模型能够学习到文本-图像对的匹配关系。

CLIP包括两个模型：Text Encoder和Image Encoder，其中Text Encoder用来提取文本的特征，可以采用NLP中常用的Text Transformer模型；而Image Encoder用来提取图像的特征，可以采用常用CNN模型或者Vision Transformer。文本和视觉分别进入Transformer Encoder，经过线性投影计算不同图文对的相似度，使用对比学习，将图片分类转换成图文匹配任务。

图3. 模型整体结构

因为目前公开的多模态模型文本模型大多是英文的，而我们的线上搜索内容和商品名称为中文，因此在这里尝试了两种方案：

方案一：中文从头预训练的模型，预训练数据集2亿+公开图文对数据集

方案二：英文CLIP图像塔和中文语义模型初始化，预训练数据集1亿中文图文对

文本部分

在文本侧采用编码器的Roberta模型，如图4所示，RoBERTa是在BERT模型的基础上进行了改进和优化。它们的主要区别在于训练数据、预训练过程和模型的结构。BERT是基于两个任务的预训练过程：

●掩盖语言建模(MLM)

●下一句预测(NSP)

它在大型语料库上进行预训练，包括维基百科、图书馆、Google Books等等。RoBERTa在以下方面进行优化，简言之，如图4所示：

●使用更多样化的数据进行预训练，包括了多种书籍、文章和网络页面，将训练数据从16G扩充到160G。

●去掉了原BERT模型中的“下一句预测”任务，提高了模型的效果。

●使用了更大的Batch Size进行训练，更多的训练轮数

●使用动态掩盖机制，可以更好地处理输入序列中的噪声

图4. Roberta优化点

总体来说，RoBERTa相对于BERT而言，在预训练数据多样性、任务选择、超参数等方面进行了一系列的改进，取得了更好的性能。

图像部分

在图像侧采用的编码器是VIT，VIT是Google发表在ICLR 2021的一项工作，从创新角度来看文章朴实无华，直接把Transformer Encoder应用在了图像分类任务，图5是Vision Transformer(VIT)的模型框架。简单而言，模型由三个模块组成：

●Linear Projection of Flattened Patches(Embedding层)

●Transformer Encoder(图右侧有给出更加详细的结构)

●MLP Head（最终用于分类的层结构）

图5. Vision Transformer(ViT)模型框架

增强训练

为了让模型重点学习电商领域的图文信息，我们选取了超级汇川场景下千万级别商品的原始图文对，经过上述文本数据的构造，相对于原始数据，模型文本检索图片top10准确率从94%上升至97%。

训练过程优化：模型训练后，发现模型提取的图文特征相似度虽然排序的相对顺序效果不错，但是绝对值不高，先后采取了调整自适应温度系数和修改Loss的方法来缓解图文相似度较低的问题。

在模型推理阶段，如图6所示，给定一张图片，给网络一堆分类标签，比如鞋子、裤子和连衣裙等，利用文本编码器得到向量表示。然后分别计算这些标签与图片的余弦相似度；最终相似度最高的标签即是预测的分类结果。

图6. 模型专属场景增强训练

使用大量无监督的数据进行模型的增强训练，是为了让模型通过对比学习学到更多的普适特征，但是这离超级汇川的专属任务还有一定的差距，因此我们还设计了预训练模型和多任务联动这个环节。

预训练和多任务联动

在超级汇川的搜索场景下，有两个常见的任务是向量检索和相关性过滤，只不过业界常用的做法都是单模态的用文本特征去做检索和相关性过滤，为了使得多模态预训练模型更适合下游的两个任务，除了上游采用大量的无监督语料进行对比学习增强训练以外，还需要在下游采用少量的标注语料进行多任务学习，多任务联动模型结构如图7：

图7. 多任务联动模型

模型的左侧全连接层部分用来做交互式相关性计算分类损失，右侧部分直接归一化后做余弦相似度的Loss，因为向量归一化计算余弦相似度等价于计算L2距离(线上faiss检索距离衡量方式)，推导如下：

两者在归一化为单位向量的时候计算相似度结果完全一样。只不过余弦相似度是值越大越相似，欧式距离是值越小越相似，将模型训练的过程和下游任务完美的结合起来。简言之，模型左侧的模块对应相关性任务建模，模型右侧模块对应向量检索任务建模。

工程解决方案

因为文本和视觉模型均为多层Transformer结构，线上推理耗时较长，对于商品的图片，我们采用离线预估，利用OLDB缓存机制提供在线服务；对于实时的搜索文本，如图8所示，我们采用线上实时预估，为了解决模型预估耗时问题，我们在架构现有的模型服务底座上，将 TF 1.12 CPU 升级到开源版本的 TF 1.15 GPU，兼容了PAI 平台的特有算子，可以无缝兼容现有的PAI 模型。同时优化了现有 model_server 的线程切换以及 TF 参数，部分解决了实际使用中遇到的内存显存拷贝的时延问题。另外，为了保证整个方案的稳定性，引入了基于 OLDB 中心化缓存的兜底方案，极大减少了模型服务的预估耗时对线上服务的影响。

图8. 线上文本预估服务架构

实验效果

上述多模态策略通过线上AB-test实验验证，并完成了在超级汇川场景的全流量，相关性 +3%，特别是广告主的转化提升，询盘 CVR +6%。

未来展望

现阶段的多模态策略因为离线机器存储资源以及线上GPU集群资源紧张等问题，并未上线所有场景，在模型训练上也未采用最新数据例行迭代模型，很容易导致模型的退化；后续也将采用并行训练、推理加速等各种手段将该策略落地到尽可能多的场景，并提高整体模型的预估准确性和时效性。随着ChatGPT、SAM等模型在CV和NLP领域的大放光彩，我们也正在积极探索，逐步将这些新技术引入到我们的广告系统中，为广告主提供更好的服务。

参考文献

[1] Liu, P. , et al. "Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing." (2021).
[2] Dong, L. , et al. "Unified Language Model Pre-training for Natural Language Understanding and Generation.", 2019.
[3] Radford, A. , et al. "Learning Transferable Visual Models From Natural Language Supervision." (2021).
[4] Liu, Y. , et al. "RoBERTa: A Robustly Optimized BERT Pretraining Approach." (2019).
[5] Dosovitskiy, A. , et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." International Conference on Learning Representations 2021.
[6] https://zhuanlan.zhihu.com/p/594354204

【声明】内容源于网络

武汉天行健网络

武汉天行健网络工程有限公司成立于2008年，10年时间服务过20000+企业。自2016年以来在湖北与阿里智能信息事业群智能营销平台签约，帮助中小企业建立市场知名度，快速智能获客，快速营销起效！

内容 571

粉丝 0

武汉天行健网络武汉天行健网络工程有限公司成立于2008年，10年时间服务过20000+企业。自2016年以来在湖北与阿里智能信息事业群智能营销平台签约，帮助中小企业建立市场知名度，快速智能获客，快速营销起效！

总阅读289

粉丝0

内容571