点击上方蓝字关注浮庭海洋社
一、深海挑战:为何水下是具身智能的“极端环境”?
当前,地面机器人、无人机等领域的具身智能研究进展迅速,而水下场景的发展却相对滞后。然而,海洋覆盖地球表面超70%,是资源勘探、环境监测、科学考察和国防安全的关键领域,对自主作业的智能体有着迫切需求。与陆地和空中相比,水下环境带来了一系列本质性挑战:光线在水体中快速衰减并散射,导致视觉感知极不可靠;无处不在的洋流扰动使得运动控制与任务规划高度耦合且不确定;通信带宽受限、反馈稀疏,对智能体的长期记忆与序列决策能力提出了极高要求。这些因素使得连接仿真与现实的“Sim-to-Real”鸿沟在水下尤为巨大,也导致一个标准化、可复现、覆盖多任务的训练与评测环境长期缺失。
图源:浙江大学OceanGPT团队(沧渊海洋大模)
二、 OceanGym:打造高保真水下“虚拟竞技场”
为解决上述难题,OceanGPT团队基于虚幻引擎(Unreal Engine),精心打造了OceanGym这一综合性虚拟海洋环境。该平台构建了一个约800米×800米的仿真海域,其特点鲜明:
场景丰富多样:不仅模拟了开放水域、海床平原、水下悬崖等自然地貌,还人工构建了管道网络、沉船遗址、能源基础设施区、飞机残骸等功能性区域,各类模型均基于真实物体进行高精度3D重建。
环境高度逼真:平台通过精确的光照模拟,区分了50米(浅水)和500米(深水)两种典型深度,其中深水环境能见度模拟为0-10米,极大考验感知能力。同时,系统模拟了复杂的水动力条件,如洋流扰动。
架构灵活可扩展:用户可自定义光照、水流条件,添加新物体或设计全新任务,确保了平台能够持续演进,适应未来更复杂的研究需求。
图源:浙江大学OceanGPT团队(沧渊海洋大模)
三、统一框架:集成感知、记忆与决策的智能体
OceanGym不仅提供了环境,更设计了一套完整的水下具身智能体统一框架。该框架基于部分可观测马尔可夫决策过程(POMDP),并强化了上下文记忆模块,专门针对水下部分可观测、时序依赖强的特点。
多模态感知:智能体具备前、后、左、右、上、下六个方向的“眼睛”,可同步获取RGB光学图像和声纳图像,形成对环境的立体感知。
灵活动作控制:动作空间包含八个离散方向(六向平移及左右转),并可调节执行强度,实现对水下航行的精细操控。
滑动窗口记忆:智能体通过记录近期观测的文本描述与对应动作,并利用多模态大模型生成感知摘要,动态维护任务历史,以应对反馈稀疏的挑战。
大模型驱动策略:其核心决策模块由多模态大语言模型(MLLM)驱动,能够根据语言指令、实时多模态观测、记忆状态和任务目标,直接输出感知答案或运动控制指令,实现端到端的智能行为。
四、系统化任务体系:全面检验核心能力
平台设计了涵盖感知与决策两大类的8项具现实意义的任务,并建立了量化评估指标。
感知任务:包括多视角感知(从不同视角识别定位同一目标)和环境感知(分析连续图像序列理解环境变化),考验视觉一致性与时序理解能力,并支持引入声纳数据进行跨模态感知评估。
决策任务:聚焦目标搜索定位(如寻找沉船、油桶)和巡检监测(如管道检测、平台对接),要求智能体在复杂3D连续环境中,综合感知、记忆进行自主导航与作业,最终根据抵达目标距离评分。
动图源:浙江大学OceanGPT团队(沧渊海洋大模)
五、实验结果:揭示差距,指明方向
通过对多个主流多模态大模型进行系统性测试,OceanGym清晰地揭示了当前AI智能体在应对水下挑战时的显著不足,以及与人类专家水平的巨大差距。
感知能力受限:在感知任务中,性能最佳的GLM-4V模型在深水低光照条件下准确率大幅下降。一个关键发现是,当前大模型难以有效理解和利用原始声纳图像,即使提供人工标注提示,改善也有限,凸显了其对这一关键水下感知模态的“不理解”。
决策规划短板:在决策任务中,表现最好的GPT-4o-mini模型与人类专家相比差距悬殊。人类在浅水任务中成功率可达100%,深水仍保持69.6%,而多数测试模型在多个任务中得分为零,暴露出在复杂水下环境中的记忆遗忘、规划能力不足等根本性问题。
探索与迁移的启示:实验验证了延长决策时间初期能提升性能,但存在天花板,表明模型能力存在内在瓶颈。此外,在感知条件更差的深水环境中,跨任务的经验迁移比单一任务内学习更能带来稳健提升,这对训练策略设计具有启发意义。
开源开放 | 水下具身智能体虚拟竞技场OceanGym发布(点击链接查看论文、数据、代码等)
六、意义与展望:从虚拟浪潮驶向真实深海
OceanGym的发布,为水下具身智能研究提供了首个公开、系统、可量化的基础设施,使得不同算法的性能对比与迭代优化成为可能。它如同一面“镜子”,既照见了当前以MLLM为代表的智能体在应对极端水下环境时的“力不从心”,也为其能力演进指明了具体路径。
团队也坦承当前平台的局限性,如与真实世界的“仿真到现实鸿沟”(Sim-to-Real Gap)依然存在,环境规模和物理建模精度有待持续提升。展望未来,团队规划了三个重点方向:一是深度集成更强大的物理仿真引擎(如NVIDIA Isaac Sim),强化海洋动力学建模;二是构建高质量水下合成数据管线,结合强化学习加速策略训练;三是设计更先进的持续学习与记忆增强框架,使智能体能在动态水下环境中长期自主适应与进化。
从数字世界迈向真实世界,从陆地天空走向深邃海洋,OceanGym的出现,不仅是为水下机器人“练兵”的虚拟沙场,更是叩开深海自主智能大门的一把钥匙。它承载着让AI真正理解、探索并服务于这片蓝色疆域的愿景,推动着具身智能技术从理论创新稳健地走向波澜壮阔的工程现实。
原创不易,点击下方公众号名片关注。

