>

AAAI 2026 Oral｜AerialMind：首次构建无人机指代多目标跟踪大规模基准

>

0

0



AAAI 2026 Oral｜AerialMind：首次构建无人机指代多目标跟踪大规模基准

AAAI 2026 Oral｜AerialMind：首次构建无人机指代多目标跟踪大规模基准

极市平台

2025-11-27

1

↑ 点击蓝字关注极市平台

作者丨大脸猫等

编辑丨极市平台

极市导读

导读 AerialMind 首个无人机指代多目标跟踪基准，含 24 K 自然语言查询与 46 M 框标注，并推出基线模型 HETrack，在域内/跨域测试均取得 31 % HOTA 新纪录，将 RMOT 从地面视角正式推向空中。>>加入极市CV技术交流群，走在计算机视觉的最前沿

论文标题：AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios
作者单位：中国石油大学（华东）、港科广、复旦、上交、紫金山实验室等
arXiv地址：https://arxiv.org/abs/2511.21053
项目地址：https://github.com/shawnliang420/AerialMind

本文首次构建了面向无人机场景的大规模指代多目标跟踪数据集与高效标注框架，并提出了性能强劲的基线模型HawkeyeTrack (HETrack)。

01 研究背景：从“被动感知”到“主动理解”

指代多对象跟踪作为连接计算机视觉与自然语言的桥梁，旨在让机器能够根据一句简单的自然语言指令（如“跟踪那个穿红衣服的骑车人”），在视频中精准定位并持续追踪指定目标。这一能力是实现从“被动感知”到“主动理解”的范式转变的关键，也是迈向真正智能体的核心一步。

然而，一个不容忽视的事实是：当前的RMOT研究几乎完全被束缚在地面视角。无论是早期的RefCOCO系列，还是近期的Refer-KITTI、Refer-BDD等标杆数据集，其视角都与人眼高度相似。这种局限导致了两个根本性的研究断层：

视角局限导致的能力天花板：地面视角通常伴随着遮挡频繁、视野受限等问题，其“场景上下文”是局部的。这使得现有模型难以学习和理解大范围、全局性的场景语义与空间关系，从而限制了它们在需要广域监控和宏观路径规划的实际应用中的效能。
平台演进催生的现实需求：与此同时，无人机正迅速崛起为新一代具身智能的关键平台。其独特的空中俯瞰视角和超凡的机动性，带来了前所未有的广域监视能力。但这也引入了地面视角未曾遭遇的严峻挑战：

极端的尺度变化：同一目标在无人机靠近或远离时，像素大小可能相差数十倍。
复杂的空间拓扑：从空中俯瞰，物体间的“左右”、“前后”关系变得模糊，取而代之的是更复杂的经纬度与拓扑关系。
剧烈的动态变化：无人机自身的运动导致背景、光照、视角持续快速变化。

更关键的是，无人机作为自主智能体，迫切需要与人类进行自然语言交互。我们无法像操作传统机器人一样为其预设所有指令，而是需要它能理解“去跟踪东南方向那辆正在逆行的白色轿车”这样的高级语义命令。现有的、基于地面场景训练的RMOT模型，在面对这些无人机独有的挑战时，表现出了严重的适应性不足。

因此，将RMOT研究从“地面”推向“空中”，不仅是填补学术空白，更是响应无人平台智能化发展的迫切需求，是通向真正通用、鲁棒的智能感知系统的必由之路。

02 AerialMind：首个无人机指代多目标跟踪基准

为了填补这一空白，研究团队提出了 AerialMind，这是首个面向无人机场景的大规模指代多目标跟踪数据集。该数据集基于VisDrone和UAVDT两大经典无人机数据集扩展而来，具备以下特点：

AerialMind与不同RMOT数据集的对比

数据规模与多样性

93个视频序列，24.6K条指代表达式
293.1K个目标实例，46.14M个边界框标注
覆盖多种飞行高度、环境条件、目标类别

四大核心挑战

外观差异大：视角与高度变化导致目标外观剧烈变化
空间关系复杂：俯视视角下物体关系更为复杂
场景动态性强：无人机机动性带来持续变化的场景与光照
语言表达丰富：包含空间、运动状态、属性等多种描述方式

AerialMind数据集统计概述。它显示了(a)词汇、(b)有挑战的属性、（c, d）时间特征和 (e)语义概念的分布和多样性

来自AerialMind的代表性示例展示了不同的指代表达和具有挑战性的场景

引入属性级评估体系

AerialMind首次在RMOT任务中引入逐帧属性标注，包括：

光照（白天/夜晚）、视角变化、尺度变化、遮挡、快速运动、相机旋转、低分辨率八大属性

并提出了两个新评估指标：

HOTA₉：评估模型对场景挑战的鲁棒性
HOTAₘ：评估模型对运动挑战的适应性

03 COALA：高效半自动标注框架

COALA框架中四阶段标注过程概述。该框架通过多agent协作和人机交互高效地构建了AeralMind数据集

构建大规模指代数据集通常耗时耗力。为此，团队提出了 COALA，一个基于多智能体协作的半自动标注框架，包含四个阶段：

1. 场景理解与提示生成

使用大语言模型分析视频关键帧，生成场景摘要与模板化提示，为标注提供结构化起点。

2. 半自动目标标注

标注者只需点击两次（定义起始与结束帧），系统即可自动追踪目标轨迹，极大提升效率。

3. 一致性校验

通过跨模态逻辑推理，验证视觉、语言与运动轨迹之间的一致性，确保标注质量。

4. 表达扩展

利用LLM对已验证的表达进行语义等价扩展，增强数据集的语义多样性。

04 HawkEyeTrack (HETrack)：基线模型

HawkEyeTrack架构。关键创新包括协同进化融合编码器，用于协同视觉-语言对齐，以及尺度自适应上下文细化，以增强无人机场景的感知

针对无人机场景的特殊性，团队提出了 HawkEyeTrack，包含两大核心模块：

协同进化融合编码器

传统方法通常采用“早期融合”或“晚期融合”，存在模态鸿沟或导航缺失的问题。CFE模块通过双向融合层 与可变形编码层，实现视觉与语言特征的协同进化与双向增强。

尺度自适应上下文精炼

针对无人机中小目标检测难的问题，SACR模块通过：

多孔卷积 捕获多尺度上下文信息
自适应通道重校准 强化关键特征、抑制背景噪声并显著提升小目标的检测与识别能力。

05 实验结果

AerialMind的定性评估样本。HETrack根据指代表达成功跟踪对应目标

域内评估

在AerialMind测试集上，HETrack以31.46%的HOTA分数显著领先于所有现有先进模型，并在低分辨率、快速运动、夜间条件等最具挑战性的属性上建立了巨大优势。

域内和跨域测试集上最新方法的比较。最优结果加粗

在不同属性的域内评估中与现有模型进行比较

跨域评估

在未见过的UAVDT数据集上，HETrack继续保持最优性能，证明了其学到的表征对未知无人机场景具有出色的泛化能力。

06 总结与展望

AerialMind 的发布，标志着RMOT研究正式从地面迈入了空中时代。这项工作为社区提供了不可或缺的资源和方法，将极大地加速面向开放世界的空中智能感知系统的研究与开发。

本研究由欧洲科学院院士、中国自动化学会会士、中国自动化学会副理事长、IEEE/IFAC Fellow韩清龙教授作为团队指导，确保了研究方向的前沿性与成果的扎实性。

未来，团队计划引入更多自采集数据、探索轻量化模型以适配机载计算平台，并深度融合大语言模型的复杂推理能力，最终实现能与人类无缝协作、真正“听懂人话”的智能无人机。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络

0

0

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

内容 8155

粉丝 0

极市平台为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

总阅读7.6k

粉丝0

内容8.2k