
栏目 | 超级汇川技术汇
技术干货 | 技术交流
【超级汇川技术汇】是超级汇川广告平台推出的技术交流栏目,不定期向行业分享平台的技术思考和技术新进展,希望促进更多数字营销技术的行业交流,推动智能营销的发展
广告推荐常用的多模态场景
●图像识别技术:利用图像识别技术可以从用户上传的图片中识别出图片中的内容,进而推荐与其相关的广告内容。例如用户在社交平台上发布了一张关于瑜伽的图片,推荐系统可以根据图片内容为用户推荐相关的瑜伽产品或服务的广告。
●视频推荐技术:对于视频平台,用户的观看历史数据是一个非常重要的数据来源。然而,传统的基于历史行为数据的推荐方式可能忽略了视频内容的相关信息,导致推荐结果缺乏多样性。多模态技术可以将视频内容作为一个重要的数据源,利用视频中的音频、图像等信息来为用户推荐相关的广告内容。
●语音识别技术:随着语音助手的普及,语音数据也成为了广告推荐的重要数据来源。利用语音识别技术,可以对用户上传的语音进行分析和识别,从而为用户提供更加个性化和精准的广告推荐。
总之,多模态技术的应用为广告推荐带来了全新的思路和方法,可以帮助推荐系统更加全面地了解用户,从而为用户提供更加个性化和符合需求的广告推荐服务。未来随着技术的不断发展和创新,多模态在广告推荐上的应用会更加广泛和成熟。
DPA落地背景
●丰富的展示内容:电商广告主可以提供更加丰富的商品图片,包括细节图、实物图、产品介绍图等,这些图片可以更直观地展示产品的外观、材质、功能等特点,图片的内容也更加核心。
●更好的视觉效果:电商广告主提供的商品图片可以经过专业的拍摄和后期处理,具有更好的视觉效果和吸引力,具有更好的分辨率。
●更快的迭代速度:电商广告主可以更快地更新商品图片,可以在第一时间展示新上架的商品,紧跟潮流,能够提供更丰富的数据。
●更高的转化率:消费者在购买商品时往往会参考商品图片,如果商品图片能够清晰地展示产品的特点和优点,可以更容易地吸引消费者的注意力,促进购买行为。
目前的商品是如何投放的?一个商品要想在线上展示,如图1所示,离线需经过如下几步:
问题分析
●用户体验被影响:由于文本意图识别不准确导致商品广告匹配不准确,用户可能会看到与自己搜索关键词不相关的广告,影响用户体验。
●影响广告投放效果:在广告匹配不准确的情况下,会严重影响广告的点击率、转化率等指标,对广告主投放的广告效果造成影响。
●算法扩展受限:算法只能基于文本匹配。虽然可以对搜索词进行改写来改善结果,但这种方法有局限的,而多模态模型可以拓展模型的上限,提升召回的天花板。
例如搜索“篮球”出现“篮球鞋”等商品可以认为合理,但如搜索"连衣裙"召回"制作连衣裙设备"等商品,行业跨度范围较大,属于召回有偏差,不仅影响用户体验,也会影响广告主投放效果。
同时,电商场景上广告主提供了海量的高质量的商品图片数据,因此我们考虑优先在DPA场景落地,但是在多模实践过程中有一些常见的问题:
●模型准确性和性能的问题:多模态技术通常基于深度学习和神经网络技术,需要大量的数据和算力进行优化和训练,但是在实践中模型的准确性和效果可能并不理想,需要对模型进行优化和调整。通常这些模型体积较大,在线上前向推理的过程中计算量较大,而线上的场景对实时性要求又比较高,因此如何去平衡这两者的关系是一大难题。
●数据集的难以获取和质量问题:多模态技术需要大量的数据集来支撑模型的训练和优化,但有些数据集可能难以获取,且数据质量也可能不理想,需要在数据集的选择和处理上进行更多的工作。这也就是我们为什么采用DPA场景来作为多模态应用的第一块“实验田”的原因。
●数据存储瓶颈问题:因训练数据为大量图文对,而图片的存储和训练需要大量的硬盘和内存,1000w张图片的存储空间就可以达到1TB,存储和内存消耗问题也是训练多模态模型时经常遇到的问题。
解决方案
2)多模态模型和召回相关性等多任务联合训练:针对搜索广告场景下的召回和相关性任务,在下游设计了独有的召回和相关性联合Loss,采用少量的标注样本进行训练,使得预训练模型更加贴近向量召回和相关性任务
3)在工程方案上,在有限的资源下采用GPU集群预估和缓存机制相结合的方式满足了搜索场景时延低、反应快等需求
下面从训练数据、预训练模型、多任务联动模型以及工程解决方案这几方面做详细介绍
-
训练数据
多模态模型需要将来自不同模态的信息进行融合,以生成更全面和准确的结果。因此,需要收集足够的数据,以确保模型能够学习到不同模态之间的相关性和差异性。我们的数据包含三个部分:
利用部门历史积累商品数据源,数量级在1亿+,这些商品数据不仅包括图片,还包括商品多级类目、商品名称、商品描述等文本数据,我们将这些文本和商品图像构造成文本-图像对用于模型训练,除此之外,我们还利用了开放的电商数据集MUGE,这些直接获取的结构化数据我们统称为原始数据。
原始数据中大部分类目都比较短,如"电风扇"、"电冰箱等,因此在训练的时候,为了让模型重点学习电商领域的图文信息,对类目字面进行了修改扩充,在这里采用了zero-shot推理阶段常用的prompt,属于NLP领域比较火的一个研究:prompt learning或者prompt engineering,具体可以见论文:Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing,简单来说,prompt learning的核心是通过构建合适prompt(提示)来使预训练模型能够直接应用到下游任务
线上的用户搜索的query是多种多样的,很多文本的字面各不相同,但是它们指向的核心商品是相同的,主要是受用户的兴趣爱好、职业、教育等属性的影响,大家对于相同的商品的描述也不尽相同。
文本生成能力方面,人工标注评估相关性和流畅度均在99%+。在文本检索方面,相同的检索query和检索库,区别在于文本的表征,检索的效果相对于多任务微调的BERT,人工标注相关性绝对值 +3%。
-
预训练模型
因为目前公开的多模态模型文本模型大多是英文的,而我们的线上搜索内容和商品名称为中文,因此在这里尝试了两种方案:
方案一:中文从头预训练的模型,预训练数据集2亿+公开图文对数据集
方案二:英文CLIP图像塔和中文语义模型初始化,预训练数据集1亿中文图文对
在文本侧采用编码器的Roberta模型,如图4所示,RoBERTa是在BERT模型的基础上进行了改进和优化。它们的主要区别在于训练数据、预训练过程和模型的结构。BERT是基于两个任务的预训练过程:
●掩盖语言建模(MLM)
●下一句预测(NSP)
它在大型语料库上进行预训练,包括维基百科、图书馆、Google Books等等。RoBERTa在以下方面进行优化,简言之,如图4所示:
●使用更多样化的数据进行预训练,包括了多种书籍、文章和网络页面,将训练数据从16G扩充到160G。
●去掉了原BERT模型中的“下一句预测”任务,提高了模型的效果。
●使用了更大的Batch Size进行训练,更多的训练轮数
●使用动态掩盖机制,可以更好地处理输入序列中的噪声
在图像侧采用的编码器是VIT,VIT是Google发表在ICLR 2021的一项工作,从创新角度来看文章朴实无华,直接把Transformer Encoder应用在了图像分类任务,图5是Vision Transformer(VIT)的模型框架。简单而言,模型由三个模块组成:
●Linear Projection of Flattened Patches(Embedding层)
●Transformer Encoder(图右侧有给出更加详细的结构)
●MLP Head(最终用于分类的层结构)
为了让模型重点学习电商领域的图文信息,我们选取了超级汇川场景下千万级别商品的原始图文对,经过上述文本数据的构造,相对于原始数据,模型文本检索图片top10准确率从94%上升至97%。
训练过程优化:模型训练后,发现模型提取的图文特征相似度虽然排序的相对顺序效果不错,但是绝对值不高,先后采取了调整自适应温度系数和修改Loss的方法来缓解图文相似度较低的问题。
在模型推理阶段,如图6所示,给定一张图片,给网络一堆分类标签,比如鞋子、裤子和连衣裙等,利用文本编码器得到向量表示。然后分别计算这些标签与图片的余弦相似度;最终相似度最高的标签即是预测的分类结果。
使用大量无监督的数据进行模型的增强训练,是为了让模型通过对比学习学到更多的普适特征,但是这离超级汇川的专属任务还有一定的差距,因此我们还设计了预训练模型和多任务联动这个环节。
-
预训练和多任务联动
在超级汇川的搜索场景下,有两个常见的任务是向量检索和相关性过滤,只不过业界常用的做法都是单模态的用文本特征去做检索和相关性过滤,为了使得多模态预训练模型更适合下游的两个任务,除了上游采用大量的无监督语料进行对比学习增强训练以外,还需要在下游采用少量的标注语料进行多任务学习,多任务联动模型结构如图7:

因为文本和视觉模型均为多层Transformer结构,线上推理耗时较长,对于商品的图片,我们采用离线预估,利用OLDB缓存机制提供在线服务;对于实时的搜索文本,如图8所示,我们采用线上实时预估,为了解决模型预估耗时问题,我们在架构现有的模型服务底座上,将 TF 1.12 CPU 升级到开源版本的 TF 1.15 GPU,兼容了PAI 平台的特有算子,可以无缝兼容现有的PAI 模型。同时优化了现有 model_server 的线程切换以及 TF 参数,部分解决了实际使用中遇到的内存显存拷贝的时延问题。另外,为了保证整个方案的稳定性,引入了基于 OLDB 中心化缓存的兜底方案,极大减少了模型服务的预估耗时对线上服务的影响。
实验效果
未来展望
参考文献
[1] Liu, P. , et al. "Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing." (2021).
[2] Dong, L. , et al. "Unified Language Model Pre-training for Natural Language Understanding and Generation.", 2019.
[3] Radford, A. , et al. "Learning Transferable Visual Models From Natural Language Supervision." (2021).
[4] Liu, Y. , et al. "RoBERTa: A Robustly Optimized BERT Pretraining Approach." (2019).
[5] Dosovitskiy, A. , et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." International Conference on Learning Representations 2021.
[6] https://zhuanlan.zhihu.com/p/594354204


