极市导读
TACR-YOLO在YOLOv7-X基础上植入坐标注意力与任务感知注意力,并配套增强Neck、DIoU-Loss和PABD数据集,在8 529张异常行为图像上mAP提升3.24%至91.92%,仍保持24.9 FPS实时检测。>>加入极市CV技术交流群,走在计算机视觉的最前沿
精简阅读版本
本文主要解决了什么问题
-
特殊场景下异常人类行为检测(AHBD)中基于YOLO的方法面临的小目标检测困难问题,如烟头、手部等小物体感知较弱。 -
分类和回归任务之间的冲突问题,由于两者共享参数导致在复杂场景中性能下降。 -
多尺度特征融合不足的问题,单一特征融合机制难以完全捕捉复杂场景中的多尺度特征,影响性能、泛化能力和鲁棒性。 -
现有数据集无法满足特殊场景下AHBD需求的问题,缺乏专门针对异常行为检测的多样化数据集。
本文的核心创新是什么
-
提出了TACR-YOLO框架,基于YOLOv7-X改进,专门用于特殊场景下的异常人类行为检测。 -
引入坐标注意力模块(Coordinate Attention Module),解耦通道和空间注意力,增强小目标检测能力,同时优化大目标定位。 -
设计任务感知注意力模块(Task-Aware Attention Module),基于DY-ReLU-A动态调整特征权重分布,缓解分类-回归任务冲突和特征耦合问题。 -
提出增强Neck网络结构,通过多分支特征融合策略实现精细的多尺度特征融合。 -
构建了行人异常行为检测数据集(PABD),包含8,529张图像,涵盖四个行为类别(手机、吸烟、饮酒、面部),解决了该领域数据缺乏问题。 -
使用K-means聚类优化Anchor Box尺寸,并部署DIoU-Loss改进边界框回归。
结果相较于以前的方法有哪些提升
-
在PABD数据集上达到91.92%的mAP,相比基线模型YOLOv7-X(88.68% mAP)提升了3.24%。 -
在保持实时性能方面,达到24.88 FPS,与YOLOv7-X相比实时性能几乎没有下降,同时显著提高了检测精度。 -
相比其他主流检测算法(YOLOv3、YOLOv4、SSD、Faster R-CNN、YOLOv8-L、YOLOv7-tiny),在AP分数和mAP上均有显著提升。 -
消融研究验证了各模块的有效性:任务感知注意力模块提升mAP 1.22%,坐标注意力模块提升mAP 0.82%,增强Neck网络提升mAP 0.5%,DIoU Loss提升mAP 2.5%。 -
在下游应用中,与DeepSORT结合实现了高效实时的多目标跟踪系统,展示了实际应用价值。
局限性总结
-
虽然模型在PABD数据集上表现良好,但该数据集仅包含四个行为类别,可能无法涵盖所有类型的异常行为。 -
模型在更大规模或更复杂场景下的泛化能力尚未充分验证。 -
虽然保持了实时性能,但在计算资源有限的设备上部署可能仍面临挑战。 -
论文未详细讨论模型在极端光照条件、遮挡严重等更具挑战性场景下的表现。 -
未来工作需要进一步优化模型大小和计算效率,以适应更多实际应用场景。
导读
特殊场景下的异常人类行为检测(AHBD)正变得越来越重要。虽然基于YOLO的检测方法在实时任务中表现出色,但在AHBD中仍然受到小目标、任务冲突和多尺度融合等挑战的阻碍。为了解决这些问题,作者提出了TACRYOLO,一种用于AHBD的新实时框架。作者分别引入了坐标注意力模块以增强小目标检测,任务感知注意力模块以处理分类-回归冲突,以及增强 Neck 网络以实现精细的多尺度融合。此外,作者使用K-means聚类优化Anchor Box尺寸,并部署DIoU-Loss来改进边界框回归。作者还提出了行人异常行为检测(PABD)数据集,该数据集包含四个行为类别的8,529个样本。大量实验结果表明,TACR-YOLO在PABD上达到了91.92%的mAP,具有竞争性的速度和鲁棒性。消融研究突出了每个改进的贡献。这项工作为特殊场景下的异常行为检测提供了新的见解,推动了其发展。
01 引言
随着社会的进步,各行业在管理行人行为方面面临着日益增长的挑战。在施工过程中使用手机或吸烟等行为会扰乱运营、降低工作质量并增加事故风险。因此,准确及时地分析特定场景中的异常行为具有重要的实用价值。
深度学习的最新进展——特别是在卷积神经网络(CNNs)驱动的实时目标检测方面——极大地提高了异常行为分析的有效性。目标检测技术通常分为两阶段和单阶段方法。两阶段模型,如R-CNN、Fast R-CNN和Faster R-CNN,以其高精度而闻名,但计算需求量大,使其不太适合实时场景。相比之下,单阶段检测器——如YOLO系列、SSD、Retina-Net和CenterNe——将检测框定为回归问题,在计算效率和检测精度之间实现了优化的平衡。其中,YOLO系列以其创新设计、简化的训练过程以及在计算效率和检测精度之间实现的最佳平衡而脱颖而出,使其成为实时检测的基准。然而,现有的YOLO算法在处理特殊场景中的异常行为检测任务时仍面临一些挑战:
(i) YOLO的单阶段检测结构提取浅层特征的能力有限,导致对小物体的感知较弱。
(ii) 由于分类和回归任务共享参数,两者之间存在潜在冲突,这在小目标检测和复杂场景中尤为显著。
(iii) 虽然单一特征融合机制简化了计算,但不足以完全捕捉复杂场景中的多尺度特征,这会削弱性能、泛化能力和鲁棒性。
为此,基于YOLOv7-X,作者提出了一个改进的实时框架,命名为TACR-YOLO,适用于特殊场景下的AHBD。首先,为了增强小目标检测(例如烟头、手部),作者在中间网络中集成了一个坐标注意力模块,该模块解耦了通道和空间注意力,在扩大感受野以优化大目标定位的同时,提高了对小目标的敏感性。此外,针对分类和回归目标之间的固有差异,作者提出了任务感知注意力模块,该模块动态调整特征权重分布,增强判别性特征的提取,同时不解耦分类和回归任务。它在保持最小计算开销的同时,有效缓解了任务不一致性和特征耦合问题。最后,作者引入了增强 Neck 网络来增强多尺度特征融合,通过K-means聚类校准 Anchor 点维度参数以提高尺度感知检测效能,并实施基于DIoU度量的定位优化机制以提高回归精度,显著提升了检测性能和训练稳定性。
同时,由于现有的目标检测数据集无法满足特殊场景下AHBD的要求,作者构建了一个多样化的数据集PABD(行人异常行为数据集),包含8,529张来自驾驶和建筑工地等场景的图像。该数据集包含四个标签类别:手机、吸烟、饮酒和面部(如图2所示)。作者应用了数据清洗和增强技术来提高数据的平衡性、鲁棒性和多样性。
在PABD数据集上的实验验证证明了TACR-YOLO的卓越效能,达到了 mAP并具有实时推理速度。消融分析量化证实了每个模块的性能提升。作者的主要贡献包括:
-
作者提出了TACR-YOLO框架,并设计了一个任务感知注意力模块(Task-Aware Attention Module)来缓解任务不一致性和特征耦合问题,显著提高了模型的性能和泛化能力。 -
通过将Coordination Attention Module集成到YOLOv7-X的主干网络中,使用K-means聚类优化 Anchor 框尺寸,设计Strengthen Neck Network,并引入DIoU-Loss,作者通过多视角分层方法增强了检测能力。 -
作者构建了PABD数据集,该数据集专门针对这项任务,涵盖了多样化的场景,并解决了该领域数据缺乏的问题。在PABD数据集上的全面评估验证了作者新颖框架的有效性。
02 相关工作
2.1 Object Detection 方法的进步
目标检测领域通过深度学习的创新经历了革命性变革,其中卷积神经网络(CNN)方法被系统地分为两阶段范式和单阶段架构。两阶段方法涉及生成候选区域,然后进行分类和定位。R-CNN 使用选择性搜索进行区域 Proposal ,并使用CNN进行特征提取,但由于固定的输入尺寸而速度较慢。SPP-Net消除了输入缩放,但需要单独的微调和回归步骤,增加了复杂性。Fast R-CNN 引入了端到端训练,但仍然依赖选择性搜索,限制了效率。Faster R-CNN 通过引入区域 Proposal 网络(RPN)提高了效率,该网络共享卷积特征并降低了计算成本。然而,RPN生成大量 Proposal 并独立分类它们,减慢了推理速度并限制了实时性能。
相比之下,单阶段目标检测方法将检测简化为一个统一的回归问题,通过单个卷积网络实现同时进行类别预测和边界框估计。虽然精度略低于两阶段方法,但它们在速度方面具有显著优势。其中,YOLO系列在实时性能和检测精度方面表现出色,YOLOv7-X 通过优化结构和改进任务分配,进一步增强了多尺度适应性和推理效率。其速度与精度的平衡使YOLOv7-X成为实时任务的理想选择,作者选择它作为作者的 Baseline 模型,并在实时场景中对其进行优化,以实现更快、更准确的检测。
2.2 异常人类行为检测
异常行为检测已成为目标检测中的关键研究领域,近年来取得了许多进展。单阶段检测算法,特别是YOLO系列,因其速度优势而备受青睐。例如,提出了用于行人检测的YOLOv3-Multi,通过残差DarkNet结构和空间金字塔池化(SPP)改进了小目标检测。提出了一种基于MobileNetv3的轻量级YOLOv3,通过替换DarkNet53降低复杂度,并添加了CIoU和SESAM注意力机制以改进远距离检测。RSA-YOLO 解决了长宽比和小目标检测问题,但在处理大规模图像时面临高计算复杂度,导致推理速度变慢。其他方法将YOLO与CNN结合,如使用带有2D卷积层的YOLO进行视频中的实时异常人类行为检测。将YOLOv5应用于识别视频中的异常行为,使用CNN进行运动特征提取。尽管这些方法对实时检测有效,但在处理小目标和复杂场景时仍然存在困难。
总之,基于YOLO的异常行为检测方法在实时检测和小目标识别方面表现出色,但在推理速度和复杂场景下的性能方面面临挑战。此外,很少有研究关注影响性能的分类和回归任务之间的冲突。
03 方法论
2.1 TACR-YOLO 概述
为了实现更快、更准确的异常行为检测,作者提出了基于YOLOv7-X的TACR-YOLO,如图1所示。该网络由四个主要组件组成:输入模块、 Backbone 特征提取、增强特征提取和输出模块。
首先,在输入模块中,图像被预处理,通过调整大小到 像素并归一化为RGB格式。 Kmeans算法被应用于聚类训练集中的边界框尺寸,生成特定于数据集的 Anchor 框。这提高了模型的泛化能力、检测准确性以及在不同目标尺寸下的鲁棒性。
主干特征提取网络构建于YOLOv7-X的MP-Conv和ELAN结构之上,对特征连接和梯度流路径进行了增强,提高了特征表示和计算效率。主干网络输出三个尺度的特征图(feat1: feat2: ,feat3: ),这些特征图随后通过 Coordinate Attention模块处理。该模块编码空间位置信息并生成通道注意力权重,增强网络对关键区域的关注,提高小目标检测(如手机、烟头)的性能。Coordinate Attention模块的设计不仅考虑了通道间依赖关系,还充分利用了空间信息,帮助模型精确定位并关注关键区域,从而提高检测性能。
在neck network中,作者提出了一种增强型neck结构,专为上采样、特征整合和通道调整而设计。该结构采用多分支特征融合策略,其中来自不同分支的特征通过卷积处理,然后堆叠在一起。多个分支的特征首先通过卷积层处理,然后通过堆叠进行融合,遵循该结构采用的多分支特征融合策略。这有效地捕获和整合了多尺度特征,生成具有丰富语义信息的特征层,同时保持相同的大小。
最后,YOLO head集成了Task-Aware Attention模块,从而提高了模型有效处理多个检测任务的能力。这些改进共同使TACR-YOLO在PABD数据集上取得了卓越的性能。
3.2 坐标注意力模块
通过将精确的位置线索编码到通道特征调制中,坐标注意力(CA)模块通过提高上下文敏感性,促进了更有效的多尺度目标检测。在浅层特征层(feat1)中,它增强了对小目标(如手机、烟头)细微细节的捕捉,确保了准确的位置和边界提取。在中间特征层(feat2)中,CA模块优化了中等尺度目标(如杯子)的多尺度特征融合和鲁棒性。在深层特征层(feat3)中,它加强了深层语义特征提取,改善了High-Level目标特征的检测。通过在特征提取的所有阶段应用CA,模型利用了跨尺度的空间和语义信息,提高了检测的准确性和鲁棒性。该模块通过双阶段处理运行:(i)位置嵌入,和(ii)空间注意力公式化。
(i)Positional Embedding:对于给定的输入 ,使用大小为 和 的核分别沿垂直轴和水平轴执行方向池化,以捕获通道特征。此过程在这些维度上聚合特征,有效地将传统的 2D 全局池化转换为紧凑的 1D 特征表示。这使得 CA 模块能够捕获精确的空间交互,即使是远程空间上下文也是如此。如以下方程(1)和(2)所示,生成了两个方向敏感的特征图 和 ,这可以促进细粒度位置细节的提取并增强远程空间交互的捕获,即,
其中 H 和 分别表示特征图的高度和宽度。
(ii)Spatial Attention Formulation:方向感知特征图首先被拼接并通过一个 卷积,将通道维度减少到 。然后使用批归一化(BatchNorm)和ReLU来优化垂直和水平位置特征的空间编码,即,
其中 对应于一个 卷积层, 表示ReLU非线性,且 。
然后,特征图 沿正交轴进行空间分解,生成解耦的特征表示 和 。这些表示随后经过独立的卷积和sigmoid变换,产生轴特定的注意力权重 和 ,如公式(4)和(5)所定义,
其中 和 代表100onv2D 操作,而 表示 Sigmoid 激活函数。 最后, 和 被扩展并用作坐标注意力权重,最终形成了模块的最终输出公式,如公式(6)所示,即,
其中, 是输入特征, 和 是垂直和水平权重,而 是应用这些权重后的输出。
3.3 任务感知注意力模块
单阶段检测器在统一框架内执行集成预测任务,包括定位、类别识别和置信度估计。然而,回归任务和分类任务之间的特征分布耦合通常导致目标定位和分类性能不佳,特别是在复杂场景中的中小规模目标(如手机、烟蒂和杯子)。为了解决这个问题,作者基于DY-ReLU-A 设计了任务感知注意力模块,旨在更好地表达和泛化任务之间的关系。
DY-ReLU-A (Dynamic ReLU with Attention) 是一种动态激活函数,它根据任务需求调整其阈值以优化特征响应,解决了分类和回归任务之间的冲突。它使用全局信息编码模块通过全局平均池化来捕获上下文特征,如目标大小、位置和类别分布。在分类任务中,DY-ReLU-A增强了特征可区分性,而在回归任务中,它显著提高了目标定位精度。此外,它通过自适应通道调制来细化模型对不同物体大小和背景复杂度的响应。
在任务感知注意力模块中,DY-ReLU-A是核心组件,它动态调整激活函数以优化不同任务的特征表示。该模块首先接收来自特征提取网络(例如FPN)的特征张量,这些张量包含多层次的目标信息和空间上下文。这些多任务特征通过Concat层进行整合,以匹配任务感知层的输入格式。DY-ReLU-A被引入作为激活函数,它使用全局信息编码模块来提取全局上下文,如类别分布、空间关系和尺度变化。空间信息首先通过全局平均池化压缩成全局特征向量,然后通过两个带有归一化的全连接层产生动态参数。这些参数控制激活函数,使其能够调整分类和回归任务的特征响应强度。动态生成的权重被应用于激活函数,改善了对特征耦合的处理。该过程可以表述为,
其中 表示在第 个特征图中的通道级激活子集, 构成动态ReLU算子的可学习调制系数。
在作者的实验中,任务感知注意力模块的集成显著提升了模型在复杂场景中的mAP,验证了其在任务感知和特征优化方面的强大能力。
3.4 加强Neck Network
在原始的YOLOv7-X中,增强的特征提取网络改善了深度特征表示和特征融合。然而,该网络在处理小目标、低纹理区域和杂乱场景时面临挑战。有限的卷积深度可能会阻碍细节空间和语义特征的提取,特别是对于小规模目标,从而在多尺度检测任务中损害分类精度和定位准确性。
为应对这些不足,作者提出了对YOLOv7-X中增强特征提取网络的结构改进,通过在将feat1、feat2和feat3输入到neck network之前,用三个卷积操作替换原来的单个卷积操作。这一改进增加了卷积操作的层次深度,使网络能够在不同层次上更全面地提取目标的多尺度特征,同时增强了其解决小目标实例中细粒度细节的能力。
实验结果表明,这种修改增强了网络的深度和容量,有效解决了小目标挑战,同时没有增加计算成本。它还提高了鲁棒性和泛化能力,提供了更可靠的解决方案。
3.5 其他增强技巧
(i) 自适应 Anchor 框设计:在数据集预处理阶段,K-means算法对训练数据集中的边界框尺寸进行聚类,以优化特定 Anchor 框尺寸。通过最小化到质心的距离,识别出能提升检测精度和泛化能力的边界框尺寸。基于YOLO等目标检测模型的通用实践,受COCO数据集启发,将聚类数量K设置为9。该过程使 Anchor 框能自动适应目标的尺寸和形状变化,如下面的公式(8)所示:
其中 表示平方簇内误差和, 指定簇的数量, 表示总数据点数, 对应于第 个样本, 定义了第 个簇的质心,而 表示 和 之间的平方欧几里得距离。 (ii)损失函数优化: 指标虽然在目标检测任务中被广泛采用以量化边界框重叠度,但存在显著缺点。当预测框和真实框显示零重叠时,会出现一个关键限制:无论它们的相对位置如何, IoU 值都会降至零。更重要的是,当两个框具有相同的大小和 IoU 时, IoU 损失无法捕捉它们的位置差异,从而降低了准确性,特别是在框位置差异显著的情况下。
DIoU Loss[30]通过在预测框和真实框之间引入中心距离惩罚,改进了基于IoU的损失函数,从而通过更好的空间对齐提高了定位精度。这样做改善了优化过程,特别是对于位置相似但大小相同的边界框,并解决了lou的不可微性问题。DIOU还通过改善定位和减轻梯度消失问题,增强了小物体(如手机、烟头)的检测,从而提升了整体性能。DIoU的计算公式如下所示:
其中 和 分别指预测框和真实框的中心点, 表示它们之间的欧氏距离,而 则表示它们最小外接矩形的对角线长度。
04 PABD 数据集
目前,用于检测自然场景中异常行人行为的数据集相对稀缺。因此,行人表1:PABD数据集的统计和分布。
构建了异常行为检测(PABD)数据集,如图2所示。该数据集总共包含8,529张在各种典型公共自然场景中捕获的图像,例如地铁站和购物中心。该数据集表现出高度的多样性和广泛的适应性,支持模型在各种复杂场景中的应用需求。表1总结了作者的PABD数据集的统计特征。
数据集构建涉及三个阶段:(1) 收集:图像来源于公共平台和针对特定场景(如地铁站、商场)的网络爬虫,以确保多样性。(2) 过滤:通过自动和人工审查,移除了低质量、模糊和冗余的样本。(3) 标注:使用labelImg工具进行标注,采用Pascal VOC格式的边界框,随后进行多轮验证以确保一致性。
数据清洗(例如:平衡类别、去除重复项)和增强(例如:几何变换、颜色调整、噪声添加)增强了数据集的多样性和模型的鲁棒性。
最终,该数据集被划分为训练集、验证集和测试集,以支持有效的模型训练和评估。得益于这种严格的数据处理流程,PABD数据集在样本规模、类别平衡、数据质量和适应性方面表现出色,使其能够有效应用于涉及异常行为识别和实时跟踪的复杂场景。
05 实验
5.1 评估指标
本研究采用两个主要评估指标:Average Precision(AP)和 mean Average Precision (mAP)。AP指标在一个包含precision(P)和recall(R)的整体评估框架中运行,数学表示为:
其中 和 分别表示真正例、假正例和假负例的数量。
平均精度(AP)通过计算精确率-召回率(PR)曲线下的积分来评估检测效果。mAP作为所有类别AP的平均值,提供了整体模型准确性的综合度量。
其中 表示单个物体类别的AP指标,而 指定了检测框架中的总类别数。
5.2 实现细节
为了确定 Baseline 模型最合适的超参数,作者在PABD数据集上对YOLOv7-X进行了超参数调优实验。
在本研究中,作者以端到端的方式训练TACR-YOLO模型 100 个epoch,使用调整为 大小的输入图像。训练过程使用两块NVIDIA V100 GPU进行。通过这一系列实验,作者最终选择应用余弦退火学习率(Cosine Annealing LR)并开启马赛克数据增强。在训练过程中,模型经历了 30 个epoch的冻结训练,批次大小为 8 ,随后进行 70 个epoch的非冻结训练,使用批次大小为 4 。优化过程使用SGD优化器进行,采用基础学习率 0.01 和权重衰减 。通过这些超参数调优实验,作者使用YOLOv7-X获得了最佳性能,达到了 的mAP。表2展示了超参数调优实验的结果。
5.3 性能比较
为了全面评估TACR-YOLO,作者使用PABD数据集将其性能与几个领先的目标检测算法进行比较,如表3所示。TACR-YOLO实现了显著高于YOLOv3、YOLOv4 、SSD 、Faster R-CNN 、YOLOv8-L 和YOLOv7-tiny 的AP分数和mAP。其动态通道调制增强了特征提取、小目标检测和语义表示,同时改进了细粒度特征处理和感受野。
所提出算法设计在自然场景中用于异常行为检测的有效性通过与主流检测器的比较进一步得到证明。YOLOv7-X Baseline和TACRYOLO的部分检测结果如图3所示。
为了评估实时性能,作者在同一设备上使用五个测试样本测量了TACR-YOLO和其他主流检测器的FPS。如表4所示,TACRYOLO达到24.88 FPS,与YOLOv7-X相比实时性能几乎没有下降,同时提供了显著提高的检测精度。
5.4 消融研究
作者进行消融研究以验证TACR-YOLO的有效性,第一组使用YOLOv7-X作为对照组。第二组由YOLOv7-X与K-means聚类相结合组成。第三组在第二组的基础上,添加了Task-Aware Attention Module。第四组在第三组的基础上添加了Coordinate Attention Module。第五组在第四组的基础上进一步引入了Strengthen Neck Network。第六组在第五组的基础上使用DIoU Loss作为损失函数,即TACR-YOLO。
K-means聚类的贡献
在第二组实验中,训练集中的目标边界框尺寸通过K-means聚类进行聚类,以确定一组适合该数据集的 Anchor 框尺寸,这提高了模型在检测不同尺度目标时的性能和适应性。
任务感知注意力模块的贡献
作者基于第二组实验应用Task-Aware Attention Module来改进预测头,使mAP显著提升了。这证明了所提出模块的有效性。Task-Aware Attention Module动态选择并激活更适合当前任务的通道,根据分类(语义信息更为关键)和边界框回归(空间信息被优先考虑)的不同需求调整通道权重。每个通道可以根据特定任务需求被部分或完全激活或抑制,使模型能够更有效、更高效地学习面向任务的特征表示。
坐标注意力模块的影响
在第三组实验的基础上,作者集成了CA模块来指导从 Backbone 网络提取的特征,使mAP提高了 。CA模块通过将空间位置信息整合到通道注意力机制中,提高了对多尺度目标的性能。通过在特征提取过程中将其整合到 Backbone 网络中,模型学习空间和语义特征的能力得到显著增强,从而提高了多尺度目标检测的鲁棒性。
增强 Neck 网络的有效性
在第五组实验中,作者在第四种配置的基础上,通过将特征金字塔网络(FPN)之前的单层卷积替换为三层卷积结构来增强 Neck 网络。这种修改增加了网络的容量和深度,扩展了感受野,从而使 mAP 提高了 。
DIoU Loss的贡献
在第六组实验中,作者采用了DIoU Loss,该方法综合考虑了目标与 Anchor 框中心之间的欧氏距离、IoU以及框的相对尺度。表5显示,与IoU相比,DIoU将模型的mAP提高了 。该方法稳定了边界框回归,避免了传统IoU Loss方法中常见的训练发散等问题。
作者最终实施了五项改进,最终mAP从 提高到 ,总增幅为 ,其中任务感知注意力模块(Task-Aware Attention Module)和CA模块是重要的改进方法,分别将mAP提高了 和 。表5记录了通过模块消融实验的渐进性能变化。
5.5 下游应用
为了进一步证明TACR-YOLO的有效性,作者部署并应用了作者的TACR-YOLO,将其与DeepSORT 相结合,以实现一个高效且实时的多目标跟踪系统。Deep-SORT 是一种基于检测的跟踪算法,它将卷积神经网络与卡尔曼滤波相结合,以准确跟踪视频流中的多个目标。如图4所示,作者的耦合系统可以在全局范围内实现令人印象深刻的检测和跟踪性能。
06 结论与讨论
本文提出了TACR-YOLO用于检测异常人类行为,并介绍了一个名为PABD的新数据集,该数据集包含8,529张图像,跨越四个类别,覆盖了更广泛的场景。通过整合Coordinate Attention Module,TACR-YOLO有效捕获了多尺度目标的空间和语义信息。此外,Task-aware Attention Module动态选择并激活与当前任务最相关的通道,从而增强了预测头的性能。TACR-YOLO在PABD数据集上的性能证明了其鲁棒性和有效性,满足了实际场景中对异常行为进行准确可靠检测的实际需求。
在未来的发展中,作者主要专注于在保持令人印象深刻的性能的同时,进一步修剪和优化整体模型。
参考
[1]. TACR-YOLO: A Real-time Detection Framework for Abnormal Human Behaviors Enhanced with Coordinate and Task-Aware Representations

公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

