大数跨境
0
0

ICCV 2025 highlight: MovingDroneCrowd:动态无人机视角下密集行人视频计数、跟踪新基准!

ICCV 2025 highlight: MovingDroneCrowd:动态无人机视角下密集行人视频计数、跟踪新基准! 极市平台
2025-09-17
1
↑ 点击蓝字 关注极市平台
作者丨我爱计算机视觉
来源丨我爱计算机视觉
编辑丨极市平台

极市导读

 

MovingDroneCrowd 带来首个“动态无人机拍密集人群”视频数据集,配套提出 SDNet,用“共享密度图差分”直接算出人流进/出量,省去定位+跨帧匹配,计数更准、更稳,在复杂空中视角下显著优于传统跟踪法。>>加入极市CV技术交流群,走在计算机视觉的最前沿

本篇分享 ICCV 2025 highlight 论文Video Individual Counting for Moving Drones,介绍动态无人机视角下密集行人视频计数、跟踪新基准!

  • 录用信息:ICCV 2025 highlight
  • 论文题目:Video Individual Counting for Moving Drones
  • 论文作者:Yaowu Fan, Jia Wan, Tao Han, Antoni B. Chan, Andy J. Ma
  • 研究机构:中山大学,哈尔滨工业大学(深圳),香港科技大学,香港城市大学
  • 项目主页 / 数据集下载https://github.com/fyw1999/MovingDroneCrowd
  • 论文链接https://www.arxiv.org/abs/2503.10701

01 研究背景

随着无人机的普及,无人机在计算机视觉中的应用越来越广泛,例如交通管理、公共安全、旅游景点的人群分析等。相比固定摄像头,无人机具有机动灵活、视野广阔的优势,能够捕捉到更加多样和复杂的人群场景。

然而,当前研究仍存在两大痛点:

  1. 缺少数据集:现有数据大多基于固定摄像头或者低动态无人机,缺乏动态无人机视角下的密集人群视频数据集
  2. 缺少算法:传统的定位 + 跨帧匹配算法在高动态、密集人群场景中误差累积严重,难以胜任视频级别的人群计数

基于此,我们提出了MovingDroneCrowd 数据集SDNet 算法,共同填补这一研究空白。

02 MovingDroneCrowd 数据集

数据集示例
数据集示例

我们构建的MovingDroneCrowd首个可用于视频人群计数、跟踪的由动态无人机在密集人群场景下拍摄的视频数据集,具有以下特点:

  • 多样场景:涵盖商圈、景点等真实复杂的人群聚集地。

  • 条件变化:包含不同飞行高度、拍摄角度、光照条件,全面模拟无人机实际应用场景。

  • 高质量标注

    • 精确的行人头部框标注
    • 完整的行人身份ID标注,可支持视频行人计数与行人跟踪任务

这意味着,MovingDroneCrowd 同时也是动态无人机视角下密集行人跟踪算法的挑战性基准

03 SDNet:Shared Density-map guided Network

算法框架
算法框架

为了突破传统定位+匹配方法在复杂场景下的局限,我们提出了SDNet(Shared Density-Map guided Network),其核心思想是利用密度图差分来完成视频行人计数:

  1. 共享密度图(Shared Density Map)

    • 给定相邻两帧,计算每一帧的共享密度图,包含了当前帧与相邻帧中共同出现的行人的密度图
  2. Inflow & Outflow Density Map 计算

    • 用全局密度图减去共享密度图,得到 新进入 (Inflow) 和 离开 (Outflow) 的行人密度图。
  3. 视频级别计数

    • 将序列中每一帧的inflow density map累积,即可得到视频片段中身份不同行人的总数

通过绕开对“定位 + 跨帧匹配”的依赖,SDNet在复杂动态无人机场景中展现出了更高的稳健性与准确性

04 实验结果

实验结果
实验结果

4.1 定量分析

我们在 MovingDroneCrowd 上对比了现有的主流方法:

  • 基于多目标跟踪的算法:在复杂无人机场景中表现不佳,误差大,鲁棒性差。
  • 基于定位+跨帧匹配的算法:比基于跟踪的方法略好,但是效果仍然不够理想。
  • SDNet:取得了 显著优势,能够更加准确地完成视频人群计数。

4.2 定性分析

可视化结果
可视化结果

本方法计算的Inflow 和 Outflow 密度图反映了视野范围内行人的进入与离开情况。虽然仍存在一些错误响应,但它们的数值被有效地抑制了。

对比可视化结果
对比可视化结果

基于定位和跨帧匹配的方法在定位和匹配上都出现了明显错误,尤其是匹配几乎完全不正确。这表明,以往基于定位和匹配的方法难以有效应对动态且密集的场景。

05 总结

我们的工作主要贡献包括:

  1. 数据集贡献:提出了首个动态无人机密集人群视频数据集MovingDroneCrowd,可用于视频人群计数与行人跟踪两大任务。
  2. 算法贡献:设计了SDNet,通过先求共享密度图,再与全局密度图相减得到inflow密度图,有效解决了复杂动态场景下的视频计数难题。
  3. 实验结论:在 MovingDroneCrowd 上,SDNet 显著优于其他相关方法。

我们相信,MovingDroneCrowd 与 SDNet 将为无人机视觉、人群分析和智能监控提供新的研究思路

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k