ICCV 2025 highlight: MovingDroneCrowd：动态无人机视角下密集行人视频计数、跟踪新基准！



ICCV 2025 highlight: MovingDroneCrowd：动态无人机视角下密集行人视频计数、跟踪新基准！

极市平台

2025-09-17

↑ 点击蓝字关注极市平台

作者丨我爱计算机视觉

来源丨我爱计算机视觉

编辑丨极市平台

极市导读

MovingDroneCrowd 带来首个“动态无人机拍密集人群”视频数据集，配套提出 SDNet，用“共享密度图差分”直接算出人流进/出量，省去定位+跨帧匹配，计数更准、更稳，在复杂空中视角下显著优于传统跟踪法。>>加入极市CV技术交流群，走在计算机视觉的最前沿

本篇分享 ICCV 2025 highlight 论文Video Individual Counting for Moving Drones,介绍动态无人机视角下密集行人视频计数、跟踪新基准！

录用信息：ICCV 2025 highlight
论文题目：Video Individual Counting for Moving Drones
论文作者：Yaowu Fan, Jia Wan, Tao Han, Antoni B. Chan, Andy J. Ma
研究机构：中山大学，哈尔滨工业大学(深圳)，香港科技大学，香港城市大学
项目主页 / 数据集下载：https://github.com/fyw1999/MovingDroneCrowd
论文链接：https://www.arxiv.org/abs/2503.10701

01 研究背景

随着无人机的普及，无人机在计算机视觉中的应用越来越广泛，例如交通管理、公共安全、旅游景点的人群分析等。相比固定摄像头，无人机具有机动灵活、视野广阔的优势，能够捕捉到更加多样和复杂的人群场景。

然而，当前研究仍存在两大痛点：

缺少数据集：现有数据大多基于固定摄像头或者低动态无人机，缺乏动态无人机视角下的密集人群视频数据集。
缺少算法：传统的定位 + 跨帧匹配算法在高动态、密集人群场景中误差累积严重，难以胜任视频级别的人群计数。

基于此，我们提出了MovingDroneCrowd 数据集和SDNet 算法，共同填补这一研究空白。

02 MovingDroneCrowd 数据集

我们构建的MovingDroneCrowd是首个可用于视频人群计数、跟踪的由动态无人机在密集人群场景下拍摄的视频数据集，具有以下特点：

多样场景：涵盖商圈、景点等真实复杂的人群聚集地。
条件变化：包含不同飞行高度、拍摄角度、光照条件，全面模拟无人机实际应用场景。
高质量标注：

精确的行人头部框标注
完整的行人身份ID标注，可支持视频行人计数与行人跟踪任务

这意味着，MovingDroneCrowd 同时也是动态无人机视角下密集行人跟踪算法的挑战性基准。

03 SDNet：Shared Density-map guided Network

为了突破传统定位+匹配方法在复杂场景下的局限，我们提出了SDNet（Shared Density-Map guided Network），其核心思想是利用密度图差分来完成视频行人计数：

共享密度图（Shared Density Map）

给定相邻两帧，计算每一帧的共享密度图，包含了当前帧与相邻帧中共同出现的行人的密度图。

Inflow & Outflow Density Map 计算

用全局密度图减去共享密度图，得到 新进入 (Inflow) 和 离开 (Outflow) 的行人密度图。

视频级别计数

将序列中每一帧的inflow density map累积，即可得到视频片段中身份不同行人的总数。

通过绕开对“定位 + 跨帧匹配”的依赖，SDNet在复杂动态无人机场景中展现出了更高的稳健性与准确性。

04 实验结果

4.1 定量分析

我们在 MovingDroneCrowd 上对比了现有的主流方法：

基于多目标跟踪的算法：在复杂无人机场景中表现不佳，误差大，鲁棒性差。
基于定位+跨帧匹配的算法：比基于跟踪的方法略好，但是效果仍然不够理想。
SDNet：取得了 显著优势，能够更加准确地完成视频人群计数。

4.2 定性分析

本方法计算的Inflow 和 Outflow 密度图反映了视野范围内行人的进入与离开情况。虽然仍存在一些错误响应，但它们的数值被有效地抑制了。

基于定位和跨帧匹配的方法在定位和匹配上都出现了明显错误，尤其是匹配几乎完全不正确。这表明，以往基于定位和匹配的方法难以有效应对动态且密集的场景。

05 总结

我们的工作主要贡献包括：

数据集贡献：提出了首个动态无人机密集人群视频数据集MovingDroneCrowd，可用于视频人群计数与行人跟踪两大任务。
算法贡献：设计了SDNet，通过先求共享密度图，再与全局密度图相减得到inflow密度图，有效解决了复杂动态场景下的视频计数难题。
实验结论：在 MovingDroneCrowd 上，SDNet 显著优于其他相关方法。

我们相信，MovingDroneCrowd 与 SDNet 将为无人机视觉、人群分析和智能监控提供新的研究思路。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

内容 8155

粉丝 0

极市平台为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

总阅读3.2k

粉丝0

内容8.2k