大数跨境
0
0

保护创作者版权,有我!

保护创作者版权,有我! 蚂蚁数科
2024-07-18
1
导读:科技让生活更美好。

电影还在院线上映,社交媒体却已经充斥着画风粗糙的摄内容;搬运、剪辑,各种抄袭手法不断花样翻新,内容创作者该如何保护作品版权?

随着视频内容产业的迅速增长,抄袭的问题也日益突出。著名经济学家、知识产权专家李开打了个比喻:“视频盗版就像一个农民种了十亩地,产粮时却被别人无偿收割了。如果允许小偷的不劳而获,就说明整个社会的道德评价被颠覆了。一旦创造性劳动者的收入得不到回报,其创新热情就会丧失。”

那么,怎么能够准确、高效地识别抄袭现象,保护创作者的权益?

最近,蚂蚁数科算法团队的论文《基于区域令牌表征的自监督视频抄袭定位》(Self-Supervised Video Copy Localization with Regional Token Representation)入选了2024年欧洲计算机视觉会议(ECCV)。这篇论文核心关注的就是视频抄袭的定位问题,即判断两个视频中是否存在抄袭片段,并确定对应的起止时间

图注:识别视频抄袭并确定起止时间


当前常用的抄袭片段定位算法存在两个问题:第一是当抄袭画面只占局部区域,如画中画时,模型难以准确识别。网络上甚至流传着用“画中画”处理来逃避版权风险的教程。

第二是依赖大量的人工标注数据训练模型,模型训练成本高。“如果视频数据靠人工打标,9万个样本对,4个人做也需要近半年时间。如果视频时间长,标注成本就更不可控了”,蚂蚁数科算法专家卢旻龙表示,受视频时间长、比对工作量大等因素影响,人工标注的成本极高,“我们希望模型标注和训练工作可以让AI自学完成。”

行业里针对这些难题,提出过一些创新的方法,比如将画面裁剪成小块、提取特征,再进行比对,以及连接2个图像输入视觉转换器,输出一个二分类预测结果,表明是否存在复制内容。虽然产生了改进的结果,但同时显著增加了计算成本。

蚂蚁数科AI团队提出了一个自监督学习的框架,修改了视觉转换器 (ViT) 的架构和训练过程。通过创新性地引入了一种“区域令牌”结构,让模型学会捕获局部信息。好比在原来的基础上,增设多个角度的“摄像头”,可以从局部视角比对视频相似性,从而解决“屏摄、画中画”等视频搬运手法的识别难题,且几乎没有产生额外的计算成本。

图注:区域令牌结构,让模型学会关注局部

此外,为了解决人工标注成本高的问题,蚂蚁数科AI团队提出了一种自动生成视频对的新策略,通过算法模拟不同的抄袭方式,自动生成丰富的训练样本,对特征模型、定位模型进行训练。

就像生物通过细胞裂变或基因变异来适应环境,模型先通过在原始视频样本中引入变异,例如改变颜色、调整画面比例等,创造出了多样化的抄袭案例。再通过不断地学习和适应这些变异样本来提高自己识别和定位视频抄袭的本领。

实验结果表明,该方法在不使用任何人工标注数据的情况下,从准确性、完整性上都超越了当前最先进的标注数据训练⽅法,达到了SOTA(性能最优)的效果。而如果在训练过程增加1%的人工标注数据集进行调优,模型效果还可以进一步提升。

为了让行业共享研究成果,2022年,蚂蚁数科曾开源视频抄袭训练数据集VCSL(Video Copy Segment Localization),成果被收录在CVPR2022,该数据集在当前仍是行业里最大的视频抄袭片段本地化数据集。这次也是蚂蚁数科版权团队研究成果第五次入选国际顶会。

目前,这项研究成果也已经在实际场景中落地应用,通过蚂蚁数科数字版权服务平台“鹊凿”,提供版权保护全流程服务,实实在在地保护创作者权益。音视频和图片创作者、中小微商家都可以在“鹊凿”平台上进行版权登记、版权查询以及全网筛查侵权视频等。

我们还携手中国版权保护中心,面向互联网平台及用户,提供基于中国版权保护中心DCI体系3.0标准的版权服务能力,赋予原创作者DCI版权“身份证”,支撑版权交易流转、版权保护,以科技创新重塑版权新生态。

用科技让生活变得更美好,是我们不变的初心。未来,我们会持续探索技术创新,为AI发展及应用落地发挥更大作用。

喜欢就请点击「在看」吧👇

【声明】内容源于网络
0
0
蚂蚁数科
提供关于蚂蚁科技产品与服务的最新资讯。
内容 89
粉丝 0
蚂蚁数科 提供关于蚂蚁科技产品与服务的最新资讯。
总阅读17
粉丝0
内容89