大数跨境
0
0

说句话就能飞!北航发布语言交互的无人机控制模型

说句话就能飞!北航发布语言交互的无人机控制模型 极市平台
2025-05-29
2
↑ 点击蓝字 关注极市平台
作者丨UAV-Flow Colosseo团队
来源丨量子位
编辑丨极市平台

极市导读

 

一句话就能让无人机起飞?就像人类飞行员一样,听懂指令后立刻照做。>>加入极市CV技术交流群,走在计算机视觉的最前沿

论文链接:https://arxiv.org/abs/2505.15725

项目主页:https://prince687028.github.io/UAV-Flow/

北航刘偲教授团队创新性地提出了语言引导的细粒度无人机轨迹控制研究框架,将无人机根据简短指令执行短距反应式飞行的任务定义为Flying-on-a-Word(Flow)范式。

△UAV-Flow基准

该团队采用模仿学习方法,使无人机通过习得人类飞行员在真实环境中的操作策略来响应原子化语言指令。

随后,视觉语言动作(VLA)模型被成功部署至真实无人机平台,并在北京航空航天大学国际创新研究院的开放场景中验证了其基于自然语言对话实现飞行控制的可行性。

从导航到对话

近年来,无人机(UAV)凭借其灵活的空中机动能力,已成为视觉感知与任务执行领域的重要平台。

随着自动化技术的普及,无人机操作的门槛大幅降低,但如何让它像“智能助手”一样理解人类语言,例如只需说一句“环绕着我飞”,无人机就能理解并执行相应的动作,仍是亟待突破的前沿课题。

当前研究主要将地面机器人的视觉语言导航(VLN)任务迁移至无人机平台,重点解决基于语言指令的目标搜索与远程导航等高层次推理问题。

然而,语言引导的无人机低层控制(如执行短距离原子动作或响应简单指令)尚不完备,成为实现智能无人机系统的关键但尚未充分探索的方向。

任务定义

Flying-on-a-Word (Flow) 任务致力于实现自然语言指令与无人机精细飞行控制的高效对齐。

在该任务框架中,无人机代理整合三种输入模态:自然语言指令六自由度状态信息第一视角视觉观测,生成符合指令语义的动作序列,以模仿人类飞行员的操作。

为支持Flow任务的研究,北航刘偲教授团队构建了一个大规模的真实世界语言引导的无人机模仿学习数据集。该数据采集工作在三所高校校园内展开,覆盖总面积达5.02平方公里

△轨迹类型示意图

仿真评测基准

为建立统一的评估基准,研究团队构建了UAV-Flow-Sim仿真数据集,并在仿真闭环测试环境下对多个模型进行了系统评估,采用成功率(SR)归一化动态时间规整(NDTW)等指标对飞行轨迹质量进行量化分析,具体测试结果如下。

△模型SR对比
△模型NDTW对比
△模型NDTW对比

真机部署

针对无人机机载计算资源受限的挑战,研究团队提出了一套地面站-无人机协作策略,并为缓解通信和推理延迟带来的控制滞后问题,提出具有前瞻机制的全局轨迹对齐算法,确保运动控制的连续性。

团队基于UAV-Flow真实世界数据集训练了Pi-0-UAV模型,在北航国新院的开放场景中成功实现了视觉语言动作(VLA)系统的真机部署,首次通过自然语言对话实时控制无人机完成指令任务。

更多真机飞行精彩视频,详见项目主页。


图片公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读12.0k
粉丝0
内容8.2k