极市导读
AerialMind 首个无人机语言引导多目标跟踪基准,配 24 K 自然语言查询与 46 M 框标注;基线 HawkEyeTrack 用协同进化融合编码器+尺度自适应增强,在域内/跨域测试 HOTA 31.46 % 刷新 SOTA,夜间、小目标场景优势明显。>>加入极市CV技术交流群,走在计算机视觉的最前沿
论文标题:AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios
论文作者:Chenglizhao Chen, Shaofeng Liang, Runwei Guan, Xiaolou Sun, Haocheng Zhao,Haiyun Jiang, Tao Huang, Henghui Ding, Qing-Long Han
论文链接:https://arxiv.org/pdf/2511.21053
解决无人机复杂场景下的多目标跟踪难题
过去,多目标追踪(MOT)系统依赖视觉模式识别,像是在“盲打”——它能跟着目标走,却听不懂我们在说什么。而“Referring Multi-Object Tracking(RMOT)”试图改变这一切:它让模型学会“通过语言来追踪目标”,也就是说,让无人机理解我们用自然语言描述的对象,并在画面中找到它、锁定它、跟着它。
不过,大多数 RMOT 工作仍停留在地面视角,面对大场景、广视角、高变动的空中环境,就彻底“迷航”了。
这正是本文提出 AerialMind 的意义所在:这是首个面向无人机场景的大规模语言引导多目标追踪数据集,并提出了一个强基线方法 HawkEyeTrack。
面临四重挑战的无人机语言追踪场景
研究团队首先指出,空中 RMOT 场景面临四大挑战: 1. 外观剧变:同一目标在不同飞行高度和视角下变化巨大; 2. 空间关系复杂:鸟瞰视角下的相对方位与遮挡关系更加难以解析; 3. 场景动态性强:无人机的灵活移动带来剧烈光照与结构变化; 4. 表达更复杂:自然语言描述中频繁包含位置、运动状态和相对关系等内容。
为此,研究者基于 VisDrone 与 UAVDT 构建了 AerialMind 数据集,共包含:
-
93段视频、48,485帧画面; -
24,600条自然语言表达; -
46.1M 个目标框标注,是已有 RMOT 数据集的数倍之多;
还首次引入了逐帧挑战属性标注(如夜间、快速运动、低分辨率等),并设计出全新的 HOTAs(场景稳健性)与 HOTAm(运动鲁棒性)评估指标。
01 技术亮点
1.1 多智能体半自动标注系统 COALA
为了降低成本并提升标注质量,作者提出了四阶段协同标注流程 COALA:
-
场景理解代理(SUP):用大语言模型自动生成场景摘要与语言描述候选,帮标注者“快速上手”; -
目标追踪代理(SOL):人类只需“点两下”标注目标出现与消失的时间段,其余由模型自动完成轨迹; -
一致性检查代理(CC):使用多模态逻辑推理,自动识别语言与目标之间的不一致; -
表达扩展代理(EE):基于已有表达,生成语法不同但语义一致的新描述,提升语言多样性。
这个框架本质上是“LLM + 人类 + 多模态逻辑”的三重协同,大幅提升效率同时保留质量控制。
1.2 Co-evolutionary Fusion Encoder:促进图像与语言融合
HawkEyeTrack 的核心创新之一,是 Co-evolutionary Fusion Encoder(CFE)。
传统视觉-语言融合有两个极端:早融合容易被噪声影响,晚融合又太“盲目”。CFE的思路是:
“让语言引导视觉特征聚焦目标区域,同时让视觉特征反过来影响语言理解。”——也就是图像和语言一起成长。
CFE 使用了多层交叉注意力模块,既保留了多尺度空间结构,又强化了语义一致性,适配 AerialMind 中各种复杂表达,如“车辆中靠右的黑色车”或“正在驶离路口的汽车”等。
1.3 SACR 模块:增强小目标与模糊目标的感知
空中视角中,小目标识别是 RMOT 的大难点。
为此,作者设计了 Scale-Adaptive Contextual Refinement(SACR) 模块,包含两部分:
1. 空洞卷积组:引入不同感受野(6、12、18)的卷积核并行提取上下文信息,适配目标尺寸不一;
2. 通道注意力机制:通过通道重标定,强化关键语义通道,抑制背景干扰。实验证明,这套机制极大提升了小目标检测能力,在夜间、快速运动、低分辨率等场景下都有明显提升。
02 实验与表现
作者将 HETrack 与多个主流方法(如 TransRMOT、TempRMOT、CDRMT、MGLT)在 AerialMind 上进行对比:
-
In-domain 测试中,HETrack 拿下了最高 HOTA(31.46%)、HOTAs(34.37%)、HOTAm(31.12%);
-
Cross-domain(UAVDT)测试中,依然大幅领先,尤其在视角变化与夜间场景表现亮眼; -
在地面场景 Refer-KITTI-V2上也表现稳健,展现出优秀的跨领域泛化能力。
视觉结果也很亮眼,比如在夜间“白色车静止”任务中,其他模型误选移动车辆,而 HETrack 准确筛选出所有静止白车。
03 总结
AerialMind 的发布,标志着 RMOT 从地面迈向空中的关键一步。
它不仅提供了前所未有的挑战维度,还引入了语言引导目标感知的新机制,在真正复杂、动态、多目标的 UAV 任务中,展现了语言+视觉融合的巨大潜力。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

