>

AAAI 2026｜AerialMind：首个无人机大规模语言引导多目标追踪数据集！

>

0

0



AAAI 2026｜AerialMind：首个无人机大规模语言引导多目标追踪数据集！

AAAI 2026｜AerialMind：首个无人机大规模语言引导多目标追踪数据集！

极市平台

2025-12-09

0

↑ 点击蓝字关注极市平台

作者丨深蓝学院

来源丨深蓝AI

编辑丨极市平台

极市导读

AerialMind 首个无人机语言引导多目标跟踪基准，配 24 K 自然语言查询与 46 M 框标注；基线 HawkEyeTrack 用协同进化融合编码器+尺度自适应增强，在域内/跨域测试 HOTA 31.46 % 刷新 SOTA，夜间、小目标场景优势明显。>>加入极市CV技术交流群，走在计算机视觉的最前沿

论文标题：AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios

论文作者：Chenglizhao Chen, Shaofeng Liang, Runwei Guan, Xiaolou Sun, Haocheng Zhao,Haiyun Jiang, Tao Huang, Henghui Ding, Qing-Long Han

论文链接：https://arxiv.org/pdf/2511.21053

解决无人机复杂场景下的多目标跟踪难题

过去，多目标追踪（MOT）系统依赖视觉模式识别，像是在“盲打”——它能跟着目标走，却听不懂我们在说什么。而“Referring Multi-Object Tracking（RMOT）”试图改变这一切：它让模型学会“通过语言来追踪目标”，也就是说，让无人机理解我们用自然语言描述的对象，并在画面中找到它、锁定它、跟着它。

不过，大多数 RMOT 工作仍停留在地面视角，面对大场景、广视角、高变动的空中环境，就彻底“迷航”了。

这正是本文提出 AerialMind 的意义所在：这是首个面向无人机场景的大规模语言引导多目标追踪数据集，并提出了一个强基线方法 HawkEyeTrack。

面临四重挑战的无人机语言追踪场景

研究团队首先指出，空中 RMOT 场景面临四大挑战： 1. 外观剧变：同一目标在不同飞行高度和视角下变化巨大； 2. 空间关系复杂：鸟瞰视角下的相对方位与遮挡关系更加难以解析； 3. 场景动态性强：无人机的灵活移动带来剧烈光照与结构变化； 4. 表达更复杂：自然语言描述中频繁包含位置、运动状态和相对关系等内容。

为此，研究者基于 VisDrone 与 UAVDT 构建了 AerialMind 数据集，共包含：

93段视频、48,485帧画面；
24,600条自然语言表达；
46.1M 个目标框标注，是已有 RMOT 数据集的数倍之多；

还首次引入了逐帧挑战属性标注（如夜间、快速运动、低分辨率等），并设计出全新的 HOTAs（场景稳健性）与 HOTAm（运动鲁棒性）评估指标。

图1｜AerialMind 数据集统计概览：图中展示了 AerialMind 数据集在多个维度上的分布与多样性：(a) 高频词汇云展现语言表达的丰富性；(b) 各类挑战属性如低分辨率、快速运动的占比情况；(c-d) 参考表达的时间分布特征，覆盖全时段且具长尾特性；(e) 所覆盖的语义概念图谱体现了广泛的场景与目标类别

01 技术亮点

1.1 多智能体半自动标注系统 COALA

为了降低成本并提升标注质量，作者提出了四阶段协同标注流程 COALA：

场景理解代理（SUP）：用大语言模型自动生成场景摘要与语言描述候选，帮标注者“快速上手”；
目标追踪代理（SOL）：人类只需“点两下”标注目标出现与消失的时间段，其余由模型自动完成轨迹；
一致性检查代理（CC）：使用多模态逻辑推理，自动识别语言与目标之间的不一致；
表达扩展代理（EE）：基于已有表达，生成语法不同但语义一致的新描述，提升语言多样性。

这个框架本质上是“LLM + 人类 + 多模态逻辑”的三重协同，大幅提升效率同时保留质量控制。

图2｜COALA 多智能体协同标注流程：AerialMind 采用四阶段半自动标注系统 COALA：从场景摘要生成，到目标快速点击标注，再到一致性验证与语言扩展，通过人机协作显著提升效率与质量

1.2 Co-evolutionary Fusion Encoder：促进图像与语言融合

HawkEyeTrack 的核心创新之一，是 Co-evolutionary Fusion Encoder（CFE）。

传统视觉-语言融合有两个极端：早融合容易被噪声影响，晚融合又太“盲目”。CFE的思路是：

“让语言引导视觉特征聚焦目标区域，同时让视觉特征反过来影响语言理解。”——也就是图像和语言一起成长。

CFE 使用了多层交叉注意力模块，既保留了多尺度空间结构，又强化了语义一致性，适配 AerialMind 中各种复杂表达，如“车辆中靠右的黑色车”或“正在驶离路口的汽车”等。

图3｜HETrack 系统结构概览：HETrack 模型核心包括双向进化融合模块（CFE），实现视觉与语言的深度耦合；以及尺度自适应上下文增强模块（SACR），显著提升 UAV 场景下小目标的感知能力

1.3 SACR 模块：增强小目标与模糊目标的感知

空中视角中，小目标识别是 RMOT 的大难点。

为此，作者设计了 Scale-Adaptive Contextual Refinement（SACR）模块，包含两部分：

1. 空洞卷积组：引入不同感受野（6、12、18）的卷积核并行提取上下文信息，适配目标尺寸不一；

2. 通道注意力机制：通过通道重标定，强化关键语义通道，抑制背景干扰。实验证明，这套机制极大提升了小目标检测能力，在夜间、快速运动、低分辨率等场景下都有明显提升。

02 实验与表现

作者将 HETrack 与多个主流方法（如 TransRMOT、TempRMOT、CDRMT、MGLT）在 AerialMind 上进行对比：

In-domain 测试中，HETrack 拿下了最高 HOTA（31.46%）、HOTAs（34.37%）、HOTAm（31.12%）；

图4｜HETrack 与主流方法在两个测试集上的性能对比：在 AerialMind 的同域与跨域测试中，HETrack 在 HOTA、HOTAS、HOTAM 等核心指标上全面领先，验证了其在复杂空中场景下的强鲁棒性与泛化能力

Cross-domain（UAVDT）测试中，依然大幅领先，尤其在视角变化与夜间场景表现亮眼；
在地面场景 Refer-KITTI-V2上也表现稳健，展现出优秀的跨领域泛化能力。

图5｜不同挑战属性下的模型对比表现（同域测试）：HETrack 在低分辨率、快速运动与夜间条件等关键属性下显著优于现有方法，展现出卓越的场景稳健性与目标定位能力

视觉结果也很亮眼，比如在夜间“白色车静止”任务中，其他模型误选移动车辆，而 HETrack 准确筛选出所有静止白车。

图6｜HETrack 在 AerialMind 中的可视化追踪效果：面对夜间、遮挡与小目标等复杂 UAV 场景，HETrack 能精准识别并持续追踪语言所描述的目标，尤其在语义推理表达任务中表现出色

03 总结

AerialMind 的发布，标志着 RMOT 从地面迈向空中的关键一步。

它不仅提供了前所未有的挑战维度，还引入了语言引导目标感知的新机制，在真正复杂、动态、多目标的 UAV 任务中，展现了语言+视觉融合的巨大潜力。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络

0

0

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

内容 8155

粉丝 0

极市平台为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

总阅读919

粉丝0

内容8.2k