大数跨境
0
0

AAAI 2026|AerialMind:首个无人机大规模语言引导多目标追踪数据集!

AAAI 2026|AerialMind:首个无人机大规模语言引导多目标追踪数据集! 极市平台
2025-12-09
0
↑ 点击蓝字 关注极市平台
作者丨深蓝学院
来源丨深蓝AI
编辑丨极市平台

极市导读

 

AerialMind 首个无人机语言引导多目标跟踪基准,配 24 K 自然语言查询与 46 M 框标注;基线 HawkEyeTrack 用协同进化融合编码器+尺度自适应增强,在域内/跨域测试 HOTA 31.46 % 刷新 SOTA,夜间、小目标场景优势明显。>>加入极市CV技术交流群,走在计算机视觉的最前沿

论文标题:AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios

论文作者:Chenglizhao Chen, Shaofeng Liang, Runwei Guan, Xiaolou Sun, Haocheng Zhao,Haiyun Jiang, Tao Huang, Henghui Ding, Qing-Long Han

论文链接https://arxiv.org/pdf/2511.21053

解决无人机复杂场景下的多目标跟踪难题

过去,多目标追踪(MOT)系统依赖视觉模式识别,像是在“盲打”——它能跟着目标走,却听不懂我们在说什么。而“Referring Multi-Object Tracking(RMOT)”试图改变这一切:它让模型学会“通过语言来追踪目标”,也就是说,让无人机理解我们用自然语言描述的对象,并在画面中找到它、锁定它、跟着它。

不过,大多数 RMOT 工作仍停留在地面视角,面对大场景、广视角、高变动的空中环境,就彻底“迷航”了。

这正是本文提出 AerialMind 的意义所在:这是首个面向无人机场景的大规模语言引导多目标追踪数据集,并提出了一个强基线方法 HawkEyeTrack

面临四重挑战的无人机语言追踪场景

研究团队首先指出,空中 RMOT 场景面临四大挑战: 1. 外观剧变:同一目标在不同飞行高度和视角下变化巨大; 2. 空间关系复杂:鸟瞰视角下的相对方位与遮挡关系更加难以解析; 3. 场景动态性强:无人机的灵活移动带来剧烈光照与结构变化; 4. 表达更复杂:自然语言描述中频繁包含位置、运动状态和相对关系等内容。

为此,研究者基于 VisDrone 与 UAVDT 构建了 AerialMind 数据集,共包含:

  • 93段视频、48,485帧画面;
  • 24,600条自然语言表达;
  • 46.1M 个目标框标注,是已有 RMOT 数据集的数倍之多;

还首次引入了逐帧挑战属性标注(如夜间、快速运动、低分辨率等),并设计出全新的 HOTAs(场景稳健性)与 HOTAm(运动鲁棒性)评估指标。

图1|AerialMind 数据集统计概览:图中展示了 AerialMind 数据集在多个维度上的分布与多样性:(a) 高频词汇云展现语言表达的丰富性;(b) 各类挑战属性如低分辨率、快速运动的占比情况;(c-d) 参考表达的时间分布特征,覆盖全时段且具长尾特性;(e) 所覆盖的语义概念图谱体现了广泛的场景与目标类别

01 技术亮点

1.1 多智能体半自动标注系统 COALA

为了降低成本并提升标注质量,作者提出了四阶段协同标注流程 COALA:

  • 场景理解代理(SUP):用大语言模型自动生成场景摘要与语言描述候选,帮标注者“快速上手”;
  • 目标追踪代理(SOL):人类只需“点两下”标注目标出现与消失的时间段,其余由模型自动完成轨迹;
  • 一致性检查代理(CC):使用多模态逻辑推理,自动识别语言与目标之间的不一致;
  • 表达扩展代理(EE):基于已有表达,生成语法不同但语义一致的新描述,提升语言多样性。

这个框架本质上是“LLM + 人类 + 多模态逻辑”的三重协同,大幅提升效率同时保留质量控制。

图2|COALA 多智能体协同标注流程:AerialMind 采用四阶段半自动标注系统 COALA:从场景摘要生成,到目标快速点击标注,再到一致性验证与语言扩展,通过人机协作显著提升效率与质量

1.2  Co-evolutionary Fusion Encoder:促进图像与语言融合

HawkEyeTrack 的核心创新之一,是 Co-evolutionary Fusion Encoder(CFE)。

传统视觉-语言融合有两个极端:早融合容易被噪声影响,晚融合又太“盲目”。CFE的思路是:

“让语言引导视觉特征聚焦目标区域,同时让视觉特征反过来影响语言理解。”——也就是图像和语言一起成长。

CFE 使用了多层交叉注意力模块,既保留了多尺度空间结构,又强化了语义一致性,适配 AerialMind 中各种复杂表达,如“车辆中靠右的黑色车”或“正在驶离路口的汽车”等。

图3|HETrack 系统结构概览:HETrack 模型核心包括双向进化融合模块(CFE),实现视觉与语言的深度耦合;以及尺度自适应上下文增强模块(SACR),显著提升 UAV 场景下小目标的感知能力

1.3  SACR 模块:增强小目标与模糊目标的感知

空中视角中,小目标识别是 RMOT 的大难点。

为此,作者设计了 Scale-Adaptive Contextual Refinement(SACR) 模块,包含两部分:

1. 空洞卷积组:引入不同感受野(6、12、18)的卷积核并行提取上下文信息,适配目标尺寸不一;

2. 通道注意力机制:通过通道重标定,强化关键语义通道,抑制背景干扰。实验证明,这套机制极大提升了小目标检测能力,在夜间、快速运动、低分辨率等场景下都有明显提升。

02 实验与表现

作者将 HETrack 与多个主流方法(如 TransRMOT、TempRMOT、CDRMT、MGLT)在 AerialMind 上进行对比:

  • In-domain 测试中,HETrack 拿下了最高 HOTA(31.46%)、HOTAs(34.37%)、HOTAm(31.12%);
图4|HETrack 与主流方法在两个测试集上的性能对比:在 AerialMind 的同域与跨域测试中,HETrack 在 HOTA、HOTAS、HOTAM 等核心指标上全面领先,验证了其在复杂空中场景下的强鲁棒性与泛化能力
  • Cross-domain(UAVDT)测试中,依然大幅领先,尤其在视角变化与夜间场景表现亮眼;
  • 在地面场景 Refer-KITTI-V2上也表现稳健,展现出优秀的跨领域泛化能力。
图5|不同挑战属性下的模型对比表现(同域测试):HETrack 在低分辨率、快速运动与夜间条件等关键属性下显著优于现有方法,展现出卓越的场景稳健性与目标定位能力

视觉结果也很亮眼,比如在夜间“白色车静止”任务中,其他模型误选移动车辆,而 HETrack 准确筛选出所有静止白车。

图6|HETrack 在 AerialMind 中的可视化追踪效果:面对夜间、遮挡与小目标等复杂 UAV 场景,HETrack 能精准识别并持续追踪语言所描述的目标,尤其在语义推理表达任务中表现出色

03 总结

AerialMind 的发布,标志着 RMOT 从地面迈向空中的关键一步。

它不仅提供了前所未有的挑战维度,还引入了语言引导目标感知的新机制,在真正复杂、动态、多目标的 UAV 任务中,展现了语言+视觉融合的巨大潜力。



公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k