

ECCV2022 | 京东&北航&美团提出时序动作检测新框架性能SOTA!

极市平台

2022-08-08

导读：一个基于DETR类学习范式的TAD框架

↑ 点击蓝字关注极市平台

作者丨React-TAD

编辑丨极市平台

极市导读

本文提出了基于关系的注意力机制，两个增强和稳定分类头训练的损失以及预测片段质量得分方法。ReAct在THUMOS14上取得了先进的性能，同时和之前方法相比，具有更低的计算量。本工作由京东探索研究院，北京航空航天大学，美团，悉尼大学联合完成，已被ECCV2022接收。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

论文链接：https://arxiv.org/abs/2207.07097

代码链接：https://github.com/sssste/React

该工作希望通过encoder-decoder的框架（如DETR类方法），来解决时序动作检测（TAD）问题。但是，直接应用这些方法到TAD任务上会面临三个问题：1. decoder中的query关系建模探索不充分; 2. 有限的训练数据导致的分类训练不充分; 3. 预测时分类得分的不可靠。为了解决这三个问题，我们提出了基于关系的注意力机制，两个增强和稳定分类头训练的损失以及预测片段质量得分方法。ReAct在THUMOS14上取得了先进的性能，同时，和之前方法相比，具有更低的计算量。本工作由京东探索研究院，北京航空航天大学，美团，悉尼大学联合完成，已被ECCV2022接收。

研究背景

由于深度学习时代的来临，时序动作检测（TAD）已经成为了热门的研究领域之一。受到图像目标检测的启发，One-stage的检测方法能在相对简单的网络结构下表现出了优异的性能。同时，DETR‎[2]类方法的出现，提出了一种基于Transformer的encoder-decoder框架，也吸引了大量研究者对此方法的研究。我们的工作也参考了DETR的训练范式，将检测的动作片段建模成固定数量的可学习的查询向量（queries）。这些查询向量作为输入送入解码器中，并通过逐层Cross-attention，利用编码器特征更新特征值。查询向量最后通过简单的全连接网络预测动作片段的位置和类别。

然而，直接将DETR类方法应用至TAD任务时，会面临几个问题。第一，decoder中的密集self-attention模块并没有被完全探索。相比与图像目标检测，在TAD任务里，数据具有更大的方差：各个视频里动作的长度以及数量差异较大。对于动作长度短、数量多的视频，需要用到大量的queries预测每一条动作片段；而对于动作数量少的视频，只需要较少的有效queries来预测，剩余的queries将作为背景信息帮助预测，但在实际中，这部分queries里存在较多噪声的片段（无实际意义，或者对预测没有帮助的片段，如图1所示），容易对实际预测产生干扰。第二，分类头学习不充分。由于视频数据的复杂性，要获得准确的分类分数难度较高。与部分Anchor-based/free的方法里密集地按帧监督训练不同，DETR方法每次只会训练与Ground-truth匹配的动作片段，正样本数量较少，因此容易导致分类预测不准确。第三，预测得分不准确。当多个queries预测相同的片段时，有更高的分类分数的query预测的片段定位不一定更准确。

针对第一个问题，我们提出了一种基于关系的self-attention机制。我们构建了三种关系，分别为：显著相似关系、显著不相似关系和重复关系。我们将相似的或者是同类的动作片段定义为显著相似关系，将噪声或者不同类的动作定义为显著不相似关系，将指向同一动作的queries定义成重复关系。每条query只会和具有显著相似关系的queries计算self-attention，同时我们还额外地添加一个IoU Decay的约束项，该约束项鼓励重复的queries互相之间变得不同，从而得到更加多样性的预测。

对于第二个问题，我们提出了两种训练损失来提升分类头的准确性，分别为Ace-enc和ACE-dec损失。第一个Ace-enc损失应用在encoder之前，我们添加了一层单层的全连接层对视频特征投影，并鼓励拉近同类的动作片段特征，增大非同类动作片段特征的方差。而ACE-dec损失应用在decoder中。我们使用预测片段和ground-truth片段来训练分类头，从而增加了训练样本并稳定了分类头的训练信号。

而针对第三个问题，我们在测试的时候额外评估每个动作片段的定位质量得分，并和分类得分结合得到每个片段的最终得分。

实验表明，我们的方法在THUMOS14上取得了最先进的性能的同时，也有着比之前的方法更低的计算量。

方法

1、关系注意力与IoU衰减

对于每个 query，我们通过特征相似度和片段之间的 IoU 值两个属性来构建关系集合。具体来说，我们基于 Queries 特征计算一个相似度矩阵，这里是 Queries 的数量，矩阵的每个元素是两个 Queries 特征的余弦相似度。我们基于阈值构建显著不相似关系集合

同时，我们构建 IoU 矩阵，每个元素是两个 Queries 对应的 Segment 之间的 loU 值。根据阈值，我们构建非重复关系集合：

再将参考片段自身加入集合，我们可以构建每个 Query 的显著相似关系集合

构建完成后，每个 Query 只与其对应的显著相似关系集合内的元素计算 self-attention。

除此以外，为了抑制重复关系集合的数量，我们引入了一个惩罚项 IoU Decay，该项惩罚 query 对应的片段之间的 loU 值：

2、动作分类增强

为了解决分类学习不充分的问题，我们提出了两个提升分类性能的损失，分别为Ace-enc损失和ACE-dec损失。

对于Ace-enc损失，我们在encoder之前加入了一个全连接层，对输入视频特征进行投影，并对每条动作片段使用RoI Pooling得到片段特征。我们为该片段在数据集内采集另一条相同类别的动作片段作为正样例，采样k条不同类别的动作片段，或者是同类别的动作片段内长度小于特定阈值的片段作为负样例，然后我们构建对比损失：

我们的decoder使用类似deformable DETR‎[3]的cross-attention方法，这种方法每层都会预测一个片段区间，并在片段区间内采样固定数量的点以更新query特征（如图3左所示）。而为了增加训练样本数，对于每个被ground-truth匹配的Query，我们额外地将其对应的ground-truth片段（作为新的分支）送入每一层decoder中，使其作为参考片段区间，并用其更新Query，新更新的Query最终也会被送入分类头中训练。因此，我们的ACE-dec损失定义为：

这里，原始的分类损失和ground-truth损失我们都使用focal loss‎[4]来计算分类损失。

图 3 原始的Deformable decoder结构（左）与React的Decoder结构（右）

3、片段质量预测

除了原有的回归头和分类头以外，我们额外添加了一个片段质量头来估计片段的质量，在实现上，给定一个预测的片段和它对应的 query 特征，我们定义，其中是单层的全连接层。而 Segment Quality 定义为。在训练时，我们使用预测片段中点和与其 ground-truth 片段中点的偏移量以及它们之间的 IoU 值来监督，整体损失定义为：

在预测时，我们将分类得分和质量得分引相乘，得到每个 Query 预测片段的最终得分。

实验结果

我们使用不同阈值下的mAP，以及浮点运算量FLOPs（G）作为评价指标。

如表1所示，在THUMOS14上，我们的方法在不同的mAP阈值上都超过了先进的one-stage和two-stage方法，同时，在测试的时候有着更少的计算量。

表2也通过消融实验验证了我们三个不同部件的效果。我们的关系注意力模块能有效地提升网络性能，而另外两个模块也有着不错的效果。

而表3也提供了关于ACE模块里面两个损失的更细致的实验结果，包括正负样例的选取，损失的位置，以及两个分类损失的作用。其中值得注意的是，我们发现ACE-enc损失放在Transformer Encoder之后会有较大的性能损失，而放在一个单层的全连接层之后，Transformer Encoder之前会有比较好的效果。一个比较直觉的解释是，经过Transformer Encoder后，每个时间位置上的特征已经包含了local的信息，因此，pooling的特征不能精准地表示动作的特征。除此以外，我们发现只训练原有的分类头损失和只训练ground-truth片段带来的分类头损失都效果不佳，但是将两者结合以后训练能带来有效地提升。

结论

在这个工作中，我们提出了一个基于DETR类学习范式的TAD框架，并通过三大方法去缓解直接将DETR方法应用至TAD任务时的问题，包括基于关系的注意力模块，动作分类增强损失和片段质量预测。我们的方法在THUMOS14上取得了SOTA的性能，同时具有更少运算量。更深入的消融实验验证了我们每个方法的有效性。

[1].Shi, Dingfeng, et al. "ReAct: Temporal Action Detection with Relational Queries." arXiv e-prints (2022): arXiv-2207.

[2].Carion, Nicolas, et al. "End-to-end object detection with transformers." European conference on computer vision. Springer, Cham, 2020.

[3].Zhu, Xizhou, et al. "Deformable DETR: Deformable Transformers for End-to-End Object Detection." International Conference on Learning Representations. 2020.

[4].Lin, Tsung-Yi, et al. "Focal loss for dense object detection." Proceedings of the IEEE international conference on computer vision. 2017.

公众号后台回复“ECCV2022”获取论文分类资源下载～

‍

△点击卡片关注极市平台，获取最新CV干货

‍