大数跨境
0
0

物料风控标签系统:实现广告物料的精确风控

物料风控标签系统:实现广告物料的精确风控 武汉天行健网络
2023-04-06
2
导读:超级汇川技术汇:广告物料的精确风控


栏目 | 超级汇川技术汇

技术干货 | 技术交流


【超级汇川技术汇】是超级汇川广告平台推出的技术交流栏目,不定期向行业分享平台的技术思考和技术新进展,希望推动更多数字营销技术的行业交流,推动智能营销的发展




背景

随着互联网的蓬勃发展,内容安全变得尤为重要,2016年国家网信办署名文章《网络不是法外之地》,掀起了打击网络违法违规内容的高潮。在互联网广告行业,内容合规更是一个极其重要的问题。阿里巴巴集团旗下超级汇川广告平台,作为拥有 SSP、ADX、DSP 能力的全域广告投放平台,对接了极其丰富的媒体场景。我们既要做到遵循网信办、工信部等部门关于内容安全的各项法律法规,也要在不同媒体上,对营销内容进行精准管理和风险控制。


这就对我们平台的物料审核能力提出很大的挑战,不仅考察平台审核违法违规内容的“硬实力”,也考验平台在指导客户规范物料分类和合规投放上的“软实力”。因此,需要平台拥有对物料内容的深入理解能力。我们综合运用各类模型算法,建设物料的“风控标签系统”,使用标签系统对物料做统一管理,进而在投放侧,通过对标签的使用,实现广告物料的精准投放控制。


本文将介绍“风控标签系统”的主要工作,包括风险算法引擎、风险标签管理平台、物料投放控制系统三个部分,并介绍风控标签系统目前在头部行业上的应用效果。



风控标签系统


“风控标签系统”主要包括三部分,分别是:
风控算法引擎,负责输出物料标签
②风险标签管理平台,对标签实现统一管理
③物料投放控制系统,通过对标签的筛选,实现物料的精细化投放控制。

从打标到应用的流程如图 2-1 所示。下面将详细介绍每个部分的功能及技术实现。

图 2-1 风险物料打标流程图

风险标签管理平台


风险标签管理平台的主要功能是对物料标签做统一管理。我们设计一套树形结构的标签体系,首先,这保证了后期添加新标签的便利性,支持后续标签的扩展;其次,在树形索引上,也统一支持物料标签的增、删、合并等基础操作,标签体系可以随着物料的认知变化和业务发展进行增、删、分裂、合并等结构调整。(见图 2-2)

风险算法引擎

对物料的打标能力来自风控的算法引擎服务,如图2-3算法栈。

图 2-3 风控内容算法引擎


我们应用CV、多模态领域的多种技术(OCR、图文分类、目标检测、图像分割等),实现对物料的精细化打标和管理。综合多种场景,我们提出了三大类打标技术方案:

①类别标签:使用“OCR + 图文分类”技术,对图文创意进行归类,例如游戏标签中,总共16个大类别,收集对应的样本,训练针对游戏标签的多分类模型,再应用模型对物料进行类别打标。

②实体标签使用“目标检测”技术,定向检测图片中的各类实体元素,实现基于图像中小目标的打标。例如:检测图片中是否包含 “logo”、“水印”、“实体商品”等。针对实体类标签,检测技术的准确率和泛化性非常好。

③分级标签:对图像进行细致分割,根据分割结果综合判断,实现程度分级类标签。

分类”、“检测”、“分割” 三种方案的技术难度整体呈递进关系,下面分别介绍三种方案:

1)“OCR + 图文分类”:实现图文创意打标

如下图所示,广告物料常为图文组合形式(文本包括标题 + 图像中文本,见图 2-4)。所以需要综合考虑文本及图像信息,这里的主要挑战是“图文特征提取器 + 特征融合方式”的综合效果的考量。对图像中文本的识别,我们采用集团读光OCR(光学字符识别)算法,其准召率均在业内领先水平。

对图文分类模型,我们实验了两种框架方案(图 2-5):

①框架-1(图2-5 a):Image Encoder(图像编码器)提取图像特征,将此特征映射至文本 token 空间,同一空间的图文信息将一起送入Transformer 结构,文本特征抽取的同时完成与图像信息的融合,在 Tranformer 的最后一层 [CLS] 位获得分类打标结果。

②框架-2(图2-5 b):Image Encoder(图像编码器)提取图像特征,Text Encoder(文本编码器)提取文本特征,两路特征加和后,通过一个拟瓶颈层以提升精度,最后,经过全链接层得到分类打标结果。

相比于框架-1,框架-2 效果更优。另外,框架-2 的图像编码器、文本编码器都可灵活更换,实验中也更方便观测整体效果的提升多少来自编码器、多少来自图文特征的融合方式,在此后的项目中,会更多地选用框架2。

两种框架的模型分类效果对比见表 2-1:

2)“目标检测”:实现基于图像中小目标的打标

在部分打标场景中,可作为“打标依据”的物体只占整体图像的小部分区域(如图 2-6),如“商品”、“宣传语”、logo”、“水印”等,不同于整图的分类,需要模型具备对小物体的精准定位能力。

图 2-6 物料中的小目标识别


经典的定位检测设计方案分两种:一种是密集检测,另一种是稀疏检测。前者往往以其推理速度较快的优势受到工业界青睐,我们根据过往业务中的实验经验,优先选用了密集检测方案,经调研对比,最终采用yolo系列的检测算法,实现对小物体的检测。

在yolo系列的检测算法对比中,我们最终选用了yolo v7 作为目标检测基准算法。以yolo v7自身参数为基准,配合业务数据做finetune,实现对实体元素的打标能力。v7版本的算法除了目标检测的基础功能,在小目标的检测上效果更佳,更符合我们的业务需要,各版本对比效果如图 2-8。


此外,由于业务相关数据的严重不足,我们在训练数据的合成方面也做了一些准备工作,如:写脚本、使用生成模型合成训练所需数据(背景图为随机选取的广告图,矩形框内为随机添加的“小目标元素”):
 

图 2-9 检测样本构造(诱导点击类按钮)


3)“图像分割”:实现基于人体部位分割的打标

在一些更特别的打标场景下,需要基于人体裸露皮肤面积同服装面积的比值综合判断。不同于目标检测用矩形框定位元素的方式,此类任务需要模型拥有对图像中每个像素的分类能力,从而达到对不同人体部位、衣物的分割:头部、左臂、右臂、躯干、左腿、右腿、...、短裙、衬衫等。完成人体部位分割后,再设定具体规则用以判断皮肤裸露程度,如:“躯干面积”/“上衣面积” > 指定阈值、“左腿面积”/“短裙面积” > 指定阈值。

图 2-10 皮肤裸露面积正常

整体模型结构包括以下部分:1. ResNet50 作为骨干网络,用以提取图像特征;2. GSE-FPN(global semantic enhanced)作为特征金子塔,实现不同层次特征的融合,用以提升骨干网络的整体特征提取能力;3. 人体所在矩形框检测分支;4. 人体部位分割分支,实现对人体部位、衣物的细致分割。

特别地,对全局分割结果(整图)和实体分割结果(单个人物)进行了融合,在实体分割结果中置信度较低的实体会被丢弃,融合后的分割结果拥有更高的精度。


2.3物料投放控制系统

在风控标签系统的最后一部分,是物料投放控制系统。设计系统时,我们主要从“简单易用”、及“灵活可控”两个角度考虑,设计的系统支持基于标签的黑名单、白名单机制。通过黑名单、白名单机制的单重/双重控制过程,实现灵活的“筛选”和“排除”逻辑。

当前,标签系统已覆盖所有头部行业,全库超70%的物料都在标签系统的管理之下,自动化完成广告物料的自适应、低风险投放,进而实现对广告物料的“精准控制”

图2-12 标签词云



展望


目前,风控标签系统已广泛应用于超级汇川的各大媒体,在投放效果上也获得了平台及集团的认可:“智能营销风控标签系统”获得当年“集团营销合规优秀项目”奖。

今后,物料打标系统的建设将沿几个方向继续推进,持续为广告平台的业务及技术创新赋能。

首先,沿既定方向,通过人工统计、及自动挖掘的方式,持续推进标签系统的全行业覆盖;同时,将平台自有物料打标推广至三方物料打标,实现全域物料的标签控制。

其次,随标签覆盖率的提升,为更多创新业务提供基础数据支持,如:用打标后的全域广告物料,作为训练数据,优化物料生成模型等。

期待大家的宝贵建议,一起探讨高效可靠的内容管理方案。




【声明】内容源于网络
0
0
武汉天行健网络
武汉天行健网络工程有限公司成立于2008年,10年时间服务过20000+企业。自2016年以来在湖北与阿里智能信息事业群智能营销平台签约,帮助中小企业建立市场知名度,快速智能获客,快速营销起效!
内容 571
粉丝 0
武汉天行健网络 武汉天行健网络工程有限公司成立于2008年,10年时间服务过20000+企业。自2016年以来在湖北与阿里智能信息事业群智能营销平台签约,帮助中小企业建立市场知名度,快速智能获客,快速营销起效!
总阅读289
粉丝0
内容571