| 构建万物AI的美好世界 |
「行家说行话」是考拉悠然推出的全新专题,每期推送我们会与悠然研究院中来自各领域的行业专家展开对话,在一些经典学术问题和AI产业落地的路径与实践等话题上,输出考拉悠然与行业的双视角干货,共同探索趋势与本质。本期「行家说行话」邀请到主攻计算机视觉、标签噪声学习和深度学习方向的悠然研究院孙泽人博士,谈谈关于提取视频关键信息的几个方法。
随着各类拍摄设备和网络的普及,“视频”已成为人们日常生活中满足信息获取需求的重要来源。对于娱乐需求,人们可以自主提取视频段中的信息要素,从而获得“新闻点”。


目前对于“提取包含动作的视频段”这个任务来说,主要有两类基于深度学习的方法,即anchor-base类方法和anchor-free类方法(这里的anchor指的是为了解决检测目标尺度和长宽比变化范围大而设立的预定义边框)。
Anchor-base类处理方法借鉴了目标检测领域,将原先目标检测中对空间信息的建模,替换成对该任务中的时序信息的建模。与之相对的是anchor-free:此类处理方法抛弃了anchor的使用,而是直接预测视频中不同时间点的类别:主要包含开始、结束、动作三类。
然而,现有的这两类方法在预测的过程中没有充分利用全局信息,缺乏对于视频整体的理解,这会导致预测过程中出现一些违反常识的结果,进而降低了模型的性能。基于此,考拉悠然科技提出了一种融合全局信息的动作视频段提取方法。利用该方法训练得到的模型能够在预测动作视频段的过程中,通过引入全局信息来对有效视频段的产生进行指导,进而通过对视频整体的理解,在预测过程中将视频中不同视频段之间的关系考虑进去,最终大大避免反常识预测的产生。

(整体网络结构框架图)
具体而言,该方法的应用可分为如下几步:
1.首先从原始视频中提取包含视频段的视觉特征并将其组成视频特征序列;
2.随后利用时序卷积对提取的视频特征序列进行卷积操作,基于输出的视觉特征序列生成视频段的二维视频段特征,并进行视频段的动作预测以及开始和结束时间节点的预测;
3.最后融合视频段的动作预测结果以及开始时间节点和结束时间节点预测结果,以此产生最终的预测结果。
通过上述融合全局信息的动作视频段提取方法,我们在动作视频段提取过程中引入全局特征,将全局信息引入到两个分支当中,在预测的过程中,能够在一定程度上考虑到特征的整体分布结构,使预测结果更加准确。
对于视频开始节点和结束节点的预测来说,仅仅利用局部信息,会忽略整体视频的结构,而没有考虑到视频节点之间的相互关系。引入全局信息,是对视频整体结构的理解的一个增强。同样,对于所有视频段构成的二维矩阵来说,每一个位置都对应着一个可能的视频段,这些视频段并不是不相关的,相反,这些视频之间包含着各种各样的关系(例如包含、相邻等)。利用全局信息,可以使得最终的预测结果充分考虑各个视频之间的关系,不会出现一些违反常识的预测结果,从而提高预测结果。
基于此,考拉悠然科技研发团队所开发的例如斗殴检测、攀爬检测、徘徊检测、玩手机检测等各个场景下的行为动作识别算法,都可从视频的全局信息中获取辅助信息,有效降低视频中行为动作误检和漏检的概率。在未来,考拉悠然科技还将继续探索深耕,开发出更多场景下的视频分析能力。
关于考拉悠然
考拉悠然成立于2017年,专注于多模态AI原创技术及垂直行业解决方案。企业以“构建万物AI的美好世界”为使命,以技术平台+行业场景双轮驱动模式为城市治理、智能制造等行业提供人工智能整体解决方案,助力企业客户及合作伙伴提升商业效率和价值,实现数字化转型。
考拉悠然将持续以更高的效率、更低的成本,交付专业的场景化AI能力及服务,与合作伙伴携手共筑万物AI的美好世界!
关注我,共筑万物AI的美好世界
Web:www.kaolayouran.cn
Tel:400-661-9188

