极市导读
本文主要提出了一种新的多层次知识蒸馏框架称为HDETrack,该框架可以在训练过程中充分利用多模态/多视图信息来促进知识迁移,使得能够在测试过程中仅仅使用事件信号来实现高速和低延迟的视觉跟踪。>>1024赠书活动第一波!机器学习西瓜书、算法竞赛解析、OpenCV入门与技术实践等
Paper: https://arxiv.org/abs/2309.14611
Code: https://github.com/Event-AHU/EventVOT_Benchmark
导读
本文主要介绍了一种基于多尺度知识蒸馏的事件跟踪框架。现有的工作要么利用对齐的RGB和事件数据进行精确的跟踪,要么直接学习基于事件的跟踪器。第一类需要很高的推理成本,第二类可能很容易受到噪声事件或稀疏空间分辨率的影响。
为了解决上述问题,本文主要提出了一种新的多层次知识蒸馏框架称为HDETrack,该框架可以在训练过程中充分利用多模态/多视图信息来促进知识迁移,使得能够在测试过程中仅仅使用事件信号来实现高速和低延迟的视觉跟踪。具体来说,首先通过同时提供的RGB帧和事件流来训练一个基于教师Transformer的多模态跟踪框架。在此基础上,设计了一种新的层次知识蒸馏策略,包括两两相似性、特征表示和基于响应映射的知识蒸馏来指导学生Transformer网络的学习。
此外,由于现有的基于事件的跟踪数据集都是低分辨率的(346×260),本文提出了第一个大规模的高分辨率的(1280×720)数据集,命名为EventVOT。它包含了1141个视频,并涵盖了广泛的类别,如行人、车辆、无人机、乒乓球等。
最后,本文在低分辨率数据集(FE240hz,VisEvent,COESOT)和本文新提出的高分辨率EventVOT数据集上进行的大量实验,充分验证了所提出的方法的有效性。
论文框架
上图展示了HDETrack的框架图,其上半部分是教师的网络模型,仅在训练阶段使用,测试阶段使用下半部分的学生网络。HDETrack的训练分为两个阶段:
①单独训练教师网络
第一阶段需要训练一个鲁棒的教师网络,通过输入RGB和事件流的双模态数据,利用Transformer作为骨干网络来提取特征并进行信息的交互和融合,Transformer的输出送入跟踪头来预测跟踪的响应结果。
②训练学生网络并进行知识蒸馏
当第一阶段的教师网络训练完成之后,将教师网络学习好的网络参数冻结,来开始第二阶段学生网络的训练。第二阶段的训练是知识蒸馏的过程,教师网络输入的依然是RGB和事件流的双模态数据,学生网络输入的是单模态的事件数据(事件帧、Voxel、Time-surface、重构灰度图等数据形式),学生网络同样以Transformer作为骨干网络来提取特征,将输出的特征输入跟踪头预测跟踪结果。同时,通过三层知识蒸馏来利用教师网络的参数对学生网络的学习进行监督:
1)Similarity Matrix based Distillation.
在多头自注意层中计算的相似度矩阵包含了丰富的远距离和跨模态的关系信息。在这项工作中, 本文利用从教师 Transformer 学习到的相似性矩阵到学生 Transformer 的知识迁移。具体来说, 将第 个教师 Transformer 层的相似度矩阵表示为 。第 个学生Transformer的相似度矩阵记为 。其蒸馏的损失函数如下:
2)Feature based Distillation.
从强大的教师 Transformer 网络中提取特征进行特征表示的蒸馏是第二种蒸馏策略。将教师和学生网络的标记表示为 和 , 它们之间的蒸馏损失可以表示为:
3)Response based Distillation.
跟踪网络输出的响应图用于目标的定位。显然, 如果学生网络可以直接模拟教师所输出的响应图 , 得到的跟踪结果将会更好。本文采用加权聚焦损失函数来实现该目标, 损失函数如下:
大规模高分辨率事件数据集EventVOT
本文提出了一个大规模的高分辨率(1280×720)事件跟踪数据集——EventVOT。该数据集共有1141个视频,包含19个类别和14个挑战属性,其目标物体的属性、类别和边界框中心点分布可视化效果图如下所示:
数据集的可视化样例:
实验结果
除了新提出的EventVOT数据集外,本文还在现有的基于事件的跟踪数据集上与其他SOTA的视觉跟踪器进行了比较,包括FE240hz、VisEvent和COESOT数据集,实验结果如下:
成分分析
消融实验
跟踪可视化对比
综上,HDETrack在多个具有代表性的跟踪数据集上都体现了其显著的性能,并超越了现有的一些SOTA跟踪方法。除此之外,HDETrack在速度上也有很大优势,推理速度达到了105 FPS。可以看出,本文所提出的多尺度知识蒸馏在精度和速度上达到了很好的平衡。
总结
本文提出了一种新的事件跟踪方法,它基于教师-学生知识蒸馏框架实现了事件跟踪器的学习。教师网络以多模态或多视图数据作为输入,同时学生网络采用事件数据进行跟踪。在蒸馏阶段,它同时考虑基于相似性、基于特征和基于响应的知识蒸馏。为了弥补数据集的差距,本文还提出了第一个大规模的、高分辨率的基于事件的跟踪数据集,称为EventVOT。它包含1141个视频序列,涵盖了行人、车辆、无人机等19类目标对象,在该数据集上对10多个鲁棒跟踪器进行了重新训练和评估,这使得EventVOT成为未来工作比较的基准。这一研究为未来跟踪器的设计和开发提供了有价值的参考。
其他事件跟踪工作
1.VisEvent: Reliable Object Tracking via Collaboration of Frame and Event Flows (Xiao Wang, Jianing Li, Lin Zhu, Zhipeng Zhang, Zhe Chen, Xin Li, Yaowei Wang, Yonghong Tian, Feng Wu)
Paper: https://arxiv.org/abs/2108.05015
Code: https://github.com/wangxiao5791509/VisEvent_SOT_Benchmark
Demo video: https://www.youtube.com/watch?v=U4uUjci9Gjc
2.Revisiting Color-Event based Tracking: A Unified Network, Dataset, and Metric (Chuanming Tang, Xiao Wang, Ju Huang, Bo Jiang, Lin Zhu, Jianlin Zhang, Yaowei Wang, Yonghong Tian)
Paper:https://arxiv.org/abs/2211.11010
Code: https://github.com/Event-AHU/COESOT/tree/main
Demo video: https://www.youtube.com/watch?v=_ROv09rvi2k

公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

