极市导读
IVAC-P²L模型在视频动作计数领域实现新跨越,它巧妙地利用不规则重复先验和拉推损失,让动作计数更精准,为视频分析领域带来新视角,此外,还增强了模型对复杂视频序列的适应能力,预示着视频动作识别技术的新篇章。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
视频动作计数(Video Action Counting, VAC)是理解和分析体育、健身和日常活动内容的关键挑战。传统 VAC 方法往往忽略了动作重复中固有的细微不规则性,例如中断和周期长度的变化。为了弥补这一空白,本文将深入解读一篇题为《IVAC-P²L: Leveraging Irregular Repetition Priors for Improving Video Action Counting》的最新研究。
该论文提出了一种名为 IVAC-P²L 的方法,它引入了不规则视频动作计数(Irregular Video Action Counting, IVAC)的新视角,强调了建模视频内容中存在的不规则重复先验的重要性。P²L 这个名字可以理解为“不规则视频动作计数 - 拉推损失”,强调了其核心机制是利用拉推损失(Pull-Push Loss, P²L)来处理不规则重复动作。
-
论文标题:IVAC-P²L: Leveraging Irregular Repetition Priors for Improving Video Action Counting -
作者:Hang Wang, Zhi-Qi Cheng, Youtian Du, Lei Zhang -
机构:西安交通大学,卡内基梅隆大学,香港理工大学 -
论文地址:https://arxiv.org/abs/2403.11959 -
代码仓库:https://github.com/hwang-cs-ime/IVAC-P2L -
录用信息:TMM 2025
01 研究背景与意义
重复性动作是自然现象和人类活动的基本组成部分。在视频分析中,视频动作计数(VAC)旨在量化视频片段中重复性动作的频率。尽管 VAC 具有广泛的应用潜力,但它面临着两个关键挑战:
-
类别无关性:模型需要准确计数动作,而无需了解其具体性质。 -
时空不规则性:动作之间的时间间隔长度和重复动作本身执行速度及完成度存在差异。
为了应对这些挑战,IVAC-P²L 提出了一种新颖的方法,通过建模视频中不规则重复先验来提高视频动作计数的性能。
02 主要研究内容与方法
IVAC-P²L框架通过两个关键方面来概念化这些先验:周期内一致性(Inter-cycle Consistency)和周期-间隔不一致性(Cycle-interval Inconsistency)。
该图概念性地说明了 IVAC-P²L 方法的核心原理:由于共同的动作,周期段的时空特征具有内在相似性,而周期段和间隔段的特征之间存在根本差异,反映了它们所包含动作的不同性质。这种二元性构成了拉推损失机制的基础,旨在准确区分和计数重复性动作。
IVAC-P²L 架构概述
IVAC-P²L 的架构包括以下主要组件:
-
时空编码器(Spatial-temporal Encoder):从视频中提取细微特征。 -
预测头(Prediction Head):处理特征以生成密度图,从而实现准确的动作计数。 -
周期内一致性模块(Inter-cycle Consistency Module):确保视频中所有周期段的时空表示保持同质性,反映不同周期段之间动作的统一性。 -
周期-间隔不一致性模块(Cycle-interval Inconsistency Module):强制周期段和间隔段的表示之间存在清晰的语义区分,承认内容中固有的差异。
这些模块共同利用拉推损失机制来提高计数精度和可靠性。
不规则重复先验与拉推损失
为了有效处理时空不规则性挑战,IVAC-P²L 引入了不规则重复先验,并设计了拉推损失(Pull-Push Loss, P²L)机制。
该图概念性地展示了周期内一致性和周期-间隔不一致性机制。周期段的嵌入(红色)聚集在一起,反映了它们的共享重复性质,并确保了相似动作的统一性。相反,间隔段的嵌入(蓝色)则明显分离,以强调其非重复性特征。拉推损失机制实现了这种聚类和分离:拉损失(Pull Loss)减少了周期段内部的类内方差,而推损失(Push Loss)增加了周期段和间隔段之间的类间距离。
-
拉损失(Pull Loss):旨在最小化每个周期段嵌入与所有周期段的集体参考嵌入之间的距离,从而在特征空间中鼓励重复动作的更紧密表示。 -
推损失(Push Loss):旨在放大间隔段嵌入与周期段集体参考嵌入之间的差异,增强模型区分它们的能力。 -
回归损失(Regression Loss):用于微调模型的预测,使其与真实动作计数紧密对齐。
通过结合拉、推和回归损失组件,IVAC-P²L 优化了判别能力和动作计数准确性,从而能够处理真实视频中存在的时空不规则性。
增强随机计数增强策略(ERCA)
为了应对真实视频中动作频率、持续时间和强度变化带来的挑战,IVAC-P²L 引入了增强随机计数增强策略(Enhanced Random Count Augmentation, ERCA)。ERCA 通过人工扩展训练数据集的多样性和复杂性,从而增强模型的鲁棒性和泛化能力。
03 实验设计与结果分析
研究人员在三个基准数据集上对 IVAC-P²L 进行了综合评估:RepCount-A、UCFRep 和 Countix。
该表展示了 RepCount-A、UCFRep 和 Countix 数据集的统计信息,包括视频数量、平均持续时间、周期范围等。
性能对比
该表展示了 IVAC-P²L 在 RepCount-A 数据集上的性能对比。IVAC-P²L 表现出卓越的性能,在平均绝对误差(MAE)和偏离一准确率(OBO)方面均优于最先进的 TransRAC 方法,MAE 降低了 0.0136,OBO 提高了 **8.61%**。
该表展示了 IVAC-P²L 在 UCFRep 和 Countix 数据集上的性能对比。IVAC-P²L 显著超越了 TransRAC 模型,在 MAE 和 OBO 方面均有显著提升,这强调了其对复杂视频序列中重复动作的适应性。
消融研究
该表展示了拉损失和推损失在 RepCount-A 数据集上的消融研究。结果表明,省略拉损失会导致 MAE 增加 0.0263,OBO 降低 1.99%;省略推损失会导致 MAE 增加 0.0231,OBO 降低 3.31%。这强调了两个损失组件在模型架构中的关键作用。
该表展示了拉推损失不同变体的消融研究,进一步验证了其在捕获不规则重复先验方面的最佳性能。
定性分析
该图展示了 IVAC-P²L 与其他视频动作计数方法在 RepCount-A 数据集上的特征嵌入 t-SNE 可视化。IVAC-P²L 显著增强了周期段和间隔段之间的分离,超越了 TransRAC、对比损失和三元组损失的性能。
该图展示了视频动作计数失败案例的 t-SNE 可视化,揭示了在某些条件下区分重复和非重复动作所面临的挑战,为进一步改进提供了见解。
04 论文贡献价值
这项工作提出了 IVAC-P²L,一个利用不规则重复先验来改进视频动作计数的新框架。
-
不规则重复先验概念化:引入了不规则重复先验的概念,并通过周期内一致性(Inter-cycle Consistency)和周期-间隔不一致性(Cycle-interval Inconsistency)两个互补的方面来捕捉重复动作的细微动态。 -
拉推损失机制:设计了专门的拉推损失(P²L)机制,通过协调周期段的时空特征并将其与间隔段区分开来,有效地封装了不规则重复的本质。 -
卓越的性能和泛化能力:在 RepCount-A 数据集上取得了 无与伦比的准确性,并在 UCFRep 和 Countix 数据集上展示了 强大的泛化能力,无需特定数据集的微调。 -
增强随机计数增强策略(ERCA):引入了 ERCA 策略,通过人工扩展训练数据集的多样性和复杂性,增强了模型的鲁棒性和泛化能力。
IVAC-P²L 的研究为视频动作计数领域带来了显著的进步,特别是在处理不规则重复动作方面。其提出的不规则重复先验和拉推损失机制,为准确区分重复和非重复视频片段提供了有效途径。这项工作不仅在理论上具有创新性,其在多个数据集上的卓越表现也证明了其在实际应用中的巨大潜力,有望推动视频分析技术向更精准、更智能的方向发展。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

