
极市导读
当前的主流方法大部分都基于RNN来对时间依赖性进行建模,但是这种RNN-like的架构存在非并行性和梯度消失的问题,因此很难对其框架结构进行优化。本文提出使用Transformer引入在线行为检测任务中。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
本篇工作中,作者及团队解决的是在线行为检测任务,该任务旨在对于输入的在线视频流,识别出当前正在发生的行为类型(包括行为和背景)。最近,由于其在现实生活中具有巨大的应用前景,如自动驾驶,视频监控,异常行为检测等领域, 这项任务受到了越来越多的关注。但是,这项任务存在只能关注到已经发生的一部分动作的难点,检测时未来信息是不可获得的。此外,如何有效的聚合长程的时序依赖信息也是这项任务的难点之一。
文章链接:
https://arxiv.org/pdf/2106.11149.pdf
代码链接:
https://github.com/wangxiang1230/OadTR
一、背景介绍
在当前的主流方法大部分都基于RNN(Recurrent Neural Network)来对时间依赖性进行建模,并取得了令人印象深刻的效果, 如Temporal recurrent networks (TRN) [1]和Information Discrimination Network (IDN) [2]等。典型的,IDN[2]设计了一种类似RNN的架构,利用当前信息来控制历史信息的传递,进而对长期历史信息进行编码,最后对当前动作进行识别。然而,这种RNN-like的架构存在非并行性和梯度消失的问题。
因此,很难对其框架结构进行优化,因此可能导致性能不理想,同时计算效率也不高。为了进一步提高性能,我们需要设计一个新的高效且易于优化的框架。
为此,我们提出使用Transformers。Transformers具有强大的自注意模块,具有长程时序建模的能力,同时在自然语言处理领域和各种视觉任务中都取得了显著的成绩。并且已有的工作已经证明,Transformers具有比RNN架构更好的收敛性,并且Transformers也具有更高计算效率。
上述的观察启发了这篇工作,具体来说,我们提出了一个精心设计的框架,称为OadTR,将Transformers引入到在线行为检测任务中。特别的,我们提出的OadTR是一个encoder-decoder结构,它可以同时学习长期的历史关系和未*来的信息来分类当前的动作。 我们将OadTR与其他基于RNN的方法进行了比较,结果表明,所提出的OadTR方法不仅高效而且性能更高。令人振奋的是,OadTR在HDD [3]、TVSeries [4]和THUMOS14 [5]三个数据集上进行了大量的实验,在mAP和mcAP等指标上都取得了显著的改进并达到了当前的最好水平。
二、方法介绍
为了探索Transformer的潜在好处,我们将自注意引入到在线动作检测任务中。我们的OadTR是 一个encoder-decoder结构。对于输入的在线视频流 , 我们先对其进行特征 提取并㘻塌空间维度得到一维的特征序列并接一个全连接层把特征映射到 维, 得token序列 :
在token序列之上我们扩展了一个可学习的task token, token 。这个task token的 作用是学习和在线行为检测任务相关的全局的有判别性的特征表达。然后我们把位置编码嵌入到 token序列中, 来获取帧间顺序信息, 然后把其输入到Encoder中, Encoder中的encoder layer 由多头自注意力(Multi-head Self-Attention)、残差连接、前向层(Feed Forward)等组成。最终经过Encoder得到的特征序列为:
我们用 来表示task token对应的输出。
在线行为检测的一个难点是检测时未来信息是不可获得的,但是离线训练的时候,我们是可以获得未来的信息的,因此,我们设计了一个并行预测的Decoder来对未来信息进行预测。Decoder利用当前和过去的信息来并行的预测未来的信息,我们用:
来表示Decoder的输出,其中 表示的是预测的步长。最后我们把末来预测的信息补充在当前的识别中:
其中 为对当前行为类别的概率, 是末来行为类别的概率。
其中CE代表的是cross entropy loss, 是平衡系数, 在实验中设为0.5。
三、和state-of-the-art实验结果对比
我们的OadTR在HDD、TVSeries、THUMOS14三个数据集上进行了实验,实验结果表明我们的方法超过了之前state-of-the-art的方法,表明我们的有效性。
我们在行为的不同阶段也做了实验,实验结果表明我们的OadTR有很好的时序建模能力,在大部分阶段都表现出了良好的性能。
四、剥离实验
为了进一步探索OadTR的部件对于性能的影响,我们进行了细致的剥离实验。实验结果表明我们的task token、并行预测的decoder等的有效性。 同时我们还对Transformer的位置编码、head个数、特征维度和密集注意力等进行了分析实验。
进一步的,我们探索了预测步长对于实验结果的影响,实验结果表明当随着预测步长的增加,性能也在慢慢的提升,表明预测未来信息对于当前行为识别的有很强的补充能力,可以弥补未来信息不可得对于在线行为检测的影响。当预测步长过长时(例如16),预测难度加大,导致引入了很多不准确的未来预测信息,但是性能开始降低。
我们还探究了encoding layer和decoding layer的层数对于性能的影响。当encoding layer层数在3附近和decoding layer在5附近时,结果达到最好。
我们还探究了未来信息和当前信息的不同的特征方法对于结果的影响,实验结果表明平均池化的性能高于最大池化,表明未来信息大部分对于当前行为的识别的有贡献的。同时我们还表明了encoder对于时序建模的重要作用。
五、预测结果和state-of-the-art方法的对比
为了表明我们的decoder设计的有效性,我们decoder预测的结果和其他state-of-the-art的预测方法对比,结果表明我们预测结果也达到了当前的最好水平。准确的未来预测保障了对于当前行为识别补充的正确性,强大的encoder的时序编码能力可以为decoder提供有判别的表征。
六、可视化结果
从可视化结果来看,我们的OadTR比state-of-the-art的IDN有更明显的边界,可分离性更好。 同时两者都存在一些离群点,但是OadTR的离群点更少,同时IDN的离群点偏离得更远。
我们还可视化了多头注意力,可以看出我们得多头注意力主要关注和当前行为相关的一些部分。
参考:
[1] Mingze Xu, Mingfei Gao, Yi-Ting Chen, Larry S Davis, and David J Crandall. Temporal recurrent networks for online action detection. In ICCV, pages 5532–5541, 2019.
[2] Hyunjun Eun, Jinyoung Moon, Jongyoul Park, Chanho Jung, and Changick Kim. Learning to discriminate information for online action detection. In CVPR, pages 809–818, 2020.
[3] Vasili Ramanishka, Yi-Ting Chen, Teruhisa Misu, and Kate Saenko. Toward driving scene understanding: A dataset for learning driver behavior and causal reasoning. In CVPR, pages 7699–7707, 2018.
[4] Roeland De Geest, Efstratios Gavves, Amir Ghodrati, Zhenyang Li, Cees Snoek, and Tinne Tuytelaars. Online action detection. In ECCV, pages 269–284. Springer, 2016.
[5] Yu-Gang Jiang, Jingen Liu, A Roshan Zamir, George Toderici, Ivan Laptev, Mubarak Shah, and Rahul Sukthankar. Thumos challenge: Action recognition with a large number of classes, 2014.
Illustrastion by Elizaveta Guba from Icons8
如果觉得有用,就请分享到朋友圈吧!
公众号后台回复“CVPR21检测”获取CVPR2021目标检测论文下载~

# CV技术社群邀请函 #
备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)
即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群
每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

