极市导读
导读 AerialMind 首个无人机指代多目标跟踪基准,含 24 K 自然语言查询与 46 M 框标注,并推出基线模型 HETrack,在域内/跨域测试均取得 31 % HOTA 新纪录,将 RMOT 从地面视角正式推向空中。>>加入极市CV技术交流群,走在计算机视觉的最前沿
-
论文标题:AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios -
作者单位:中国石油大学(华东)、港科广、复旦、上交、紫金山实验室等 -
arXiv地址:https://arxiv.org/abs/2511.21053 -
项目地址:https://github.com/shawnliang420/AerialMind
本文首次构建了面向无人机场景的大规模指代多目标跟踪数据集与高效标注框架,并提出了性能强劲的基线模型HawkeyeTrack (HETrack)。
01 研究背景:从“被动感知”到“主动理解”
指代多对象跟踪 作为连接计算机视觉与自然语言的桥梁,旨在让机器能够根据一句简单的自然语言指令(如“跟踪那个穿红衣服的骑车人”),在视频中精准定位并持续追踪指定目标。这一能力是实现从“被动感知”到“主动理解”的范式转变的关键,也是迈向真正智能体的核心一步。
然而,一个不容忽视的事实是:当前的RMOT研究几乎完全被束缚在地面视角。 无论是早期的RefCOCO系列,还是近期的Refer-KITTI、Refer-BDD等标杆数据集,其视角都与人眼高度相似。这种局限导致了两个根本性的研究断层:
-
视角局限导致的能力天花板:地面视角通常伴随着遮挡频繁、视野受限等问题,其“场景上下文”是局部的。这使得现有模型难以学习和理解大范围、全局性的场景语义与空间关系,从而限制了它们在需要广域监控和宏观路径规划的实际应用中的效能。 -
平台演进催生的现实需求:与此同时,无人机正迅速崛起为新一代具身智能的关键平台。其独特的空中俯瞰视角和超凡的机动性,带来了前所未有的广域监视能力。但这也引入了地面视角未曾遭遇的严峻挑战:
-
极端的尺度变化:同一目标在无人机靠近或远离时,像素大小可能相差数十倍。 -
复杂的空间拓扑:从空中俯瞰,物体间的“左右”、“前后”关系变得模糊,取而代之的是更复杂的经纬度与拓扑关系。 -
剧烈的动态变化:无人机自身的运动导致背景、光照、视角持续快速变化。
更关键的是,无人机作为自主智能体,迫切需要与人类进行自然语言交互。 我们无法像操作传统机器人一样为其预设所有指令,而是需要它能理解“去跟踪东南方向那辆正在逆行的白色轿车”这样的高级语义命令。现有的、基于地面场景训练的RMOT模型,在面对这些无人机独有的挑战时,表现出了严重的适应性不足。
因此,将RMOT研究从“地面”推向“空中”,不仅是填补学术空白,更是响应无人平台智能化发展的迫切需求,是通向真正通用、鲁棒的智能感知系统的必由之路。
02 AerialMind:首个无人机指代多目标跟踪基准
为了填补这一空白,研究团队提出了 AerialMind,这是首个面向无人机场景的大规模指代多目标跟踪数据集。该数据集基于VisDrone和UAVDT两大经典无人机数据集扩展而来,具备以下特点:
数据规模与多样性
-
93个视频序列,24.6K条指代表达式 -
293.1K个目标实例,46.14M个边界框标注 -
覆盖多种飞行高度、环境条件、目标类别
四大核心挑战
-
外观差异大:视角与高度变化导致目标外观剧烈变化 -
空间关系复杂:俯视视角下物体关系更为复杂 -
场景动态性强:无人机机动性带来持续变化的场景与光照 -
语言表达丰富:包含空间、运动状态、属性等多种描述方式
引入属性级评估体系
AerialMind首次在RMOT任务中引入逐帧属性标注,包括:
光照(白天/夜晚)、视角变化、尺度变化、遮挡、快速运动、相机旋转、低分辨率八大属性
并提出了两个新评估指标:
-
HOTA₉:评估模型对场景挑战的鲁棒性 -
HOTAₘ:评估模型对运动挑战的适应性
03 COALA:高效半自动标注框架
构建大规模指代数据集通常耗时耗力。为此,团队提出了 COALA,一个基于多智能体协作的半自动标注框架,包含四个阶段:
1. 场景理解与提示生成
使用大语言模型分析视频关键帧,生成场景摘要与模板化提示,为标注提供结构化起点。
2. 半自动目标标注
标注者只需点击两次(定义起始与结束帧),系统即可自动追踪目标轨迹,极大提升效率。
3. 一致性校验
通过跨模态逻辑推理,验证视觉、语言与运动轨迹之间的一致性,确保标注质量。
4. 表达扩展
利用LLM对已验证的表达进行语义等价扩展,增强数据集的语义多样性。
04 HawkEyeTrack (HETrack):基线模型
针对无人机场景的特殊性,团队提出了 HawkEyeTrack,包含两大核心模块:
协同进化融合编码器
传统方法通常采用“早期融合”或“晚期融合”,存在模态鸿沟或导航缺失的问题。CFE模块通过双向融合层 与可变形编码层,实现视觉与语言特征的协同进化与双向增强。
尺度自适应上下文精炼
针对无人机中小目标检测难的问题,SACR模块通过:
-
多孔卷积 捕获多尺度上下文信息 -
自适应通道重校准 强化关键特征、抑制背景噪声并显著提升小目标的检测与识别能力。
05 实验结果
域内评估
在AerialMind测试集上,HETrack以31.46%的HOTA分数显著领先于所有现有先进模型,并在低分辨率、快速运动、夜间条件等最具挑战性的属性上建立了巨大优势。
跨域评估
在未见过的UAVDT数据集上,HETrack继续保持最优性能,证明了其学到的表征对未知无人机场景具有出色的泛化能力。
06 总结与展望
AerialMind 的发布,标志着RMOT研究正式从地面迈入了空中时代。这项工作为社区提供了不可或缺的资源和方法,将极大地加速面向开放世界的空中智能感知系统的研究与开发。
本研究由欧洲科学院院士、中国自动化学会会士、中国自动化学会副理事长、IEEE/IFAC Fellow韩清龙教授作为团队指导,确保了研究方向的前沿性与成果的扎实性。
未来,团队计划引入更多自采集数据、探索轻量化模型以适配机载计算平台,并深度融合大语言模型的复杂推理能力,最终实现能与人类无缝协作、真正“听懂人话”的智能无人机。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

