海洋是生命起源的摇篮,也是维系人类生存发展的资源宝库和生态屏障。百年来,人类对海洋的探索从未停止,从郑和下西洋,到哥伦布发现新大陆,再到深海探测器、海底观测网、海洋卫星......每一次技术突破、每一个未知的揭晓,都让人们更深刻地意识到,探索海洋,不仅是为当下的需求汲取力量,也是为可持续的发展加强保障。
随着人工智能的快速发展,涉水光学、涉水视觉等相关技术被越来越广泛地应用于海洋工程与深海探测。然而,由于强烈的光线衰减、诡谲的色彩失真,以及悬浮颗粒造成的散射效应,海洋内部构成了一道视觉屏障,让习惯于清晰场景的 AI 模型在此“失明”或“认知混乱”,难以施展其能。
为了进一步释放 AI 的全部潜能,不仅
D. Zhang et al., UWBench: A Comprehensive Vision-Language Benchmark for Underwater Understanding, arXiv:2510.18262.
B. Li et al., MARIS: Marine Open-Vocabulary Instance Segmentation with Geometric Enhancement and Semantic Alignment, arXiv:2510.15398.
“看懂”海洋
攻克感知与认知双重挑战
要让 AI 真正“看懂”海洋,仅仅是“看清”影像还远远不够,必须攻克两大核心瓶颈。
首先,感知局限。
传统的 AI 视觉技术,特别是实例分割,通常采用“封闭词汇”模式,即只能识别出那些在训练中被明确定义和标注过的物体。但海洋是一个充满无限未知的“开放世界”,不可能预先定义所有物种和物体。如何让 AI 具备“举一反三”的能力,精准识别并“描绘”出视野中的一切?这是“感知”的难题。
其次,认知鸿沟。
AI 的智能源于数据,然而现有的“大型视觉-语言模型”大多基于陆地场景训练,面对形态各异的海洋生物、复杂的水下地貌和专业的人工设施,它们就像一个没读过海洋学“教科书”的学生,缺乏理解这一切的背景知识。因此,如何让 AI 不仅能“看见”图像,更能深度“理解”其中事物的名称、关系与规律?这是“认知”的难题。
面对“感知局限”,TeleAI 团队进一步提出了首个大规模水下开放词汇分割基准 Maris 及配套的创新框架,赋予 AI 一双能够洞察未知、看清万物的“火眼金睛”。
该框架的核心在于两大创新模块,即几何先验增强模块(GPEM)和语义对齐注入机制(SAIM)。当水下图像因浑浊而模糊不清时,GPEM 模块能利用物体稳定的局部结构和轮廓线条索,智能“脑补”出目标的完整形态,确保在恶劣视觉条件下也能“看得稳”。
SAIM 模块则通过向模型注入海洋领域的专业先验知识,丰富 AI 对水下词汇的理解,消除语义歧义。这使得模型不仅能认出“海葵”,还能在没有见过的情况下,通过语言描述去识别“一种附着在岩石上、有许多触手的生物”,确保对未知类别也能“认得准”。
针对“认知鸿沟”,TeleAI 专为水下“视觉-语言理解”设计了综合性基准数据集 UWBench。它不只是一批数据,更是一本为 AI 精心编纂的海洋“百科全书”。
UWBench 包含超过 1.5 万张高分辨率图像,涉及海洋、珊瑚礁、深海栖息地等多样化环境,并配有 1.5 万条由人工标注的精准物体描述,以及近 12.5 万组从物体识别到生态关系推理的复杂问答对。
同时,此数据集还完整覆盖了从清晰到浑浊、从明亮到幽暗的各种真实水下视觉条件,为模型提供最贴近现实的“考场”。它围绕详细图像描述、视觉定位和视觉问答建立了三大核心基准,能够系统性地评估 AI 对水下场景的综合理解能力。
Maris 框架的突破标志着水下视觉感知技术从“封闭世界理解”真正迈向了的“开放世界探索”。而 UWBench 则为训练 AI 大模型能够真正“理解”海洋提供了关键的知识基石,让 AI 的水下认知有据可依。
结合智传网(AI Flow)的分布式架构,Maris 的“感知能力”与 UWBench 的“认知能力”可以被灵活部署到各类水下智能设备中,并通过“端-边-云”的同源模型协同能力,催生出更多丰富的智慧海洋应用。
例如,在海洋生态监测中,搭载该技术的自主潜航器(AUV)能实现 7x24 小时不间断进行大规模生物多样性普查,自动识别、分割、统计珊瑚和鱼群等,甚至能高亮标记出潜在的新物种,极大提升了生态保护的效率与广度。
在诸如海底光缆巡检、水下设备维护、沉船搜寻等水下工程与搜救任务中,水下具身智能可以不受浑浊水体和未知障碍物的干扰,精准地识别和定位目标,保障国家“水下信息高速公路”的安全与畅通。
从打造感知利器的 Maris,到构建认知基础的 UWBench,TeleAI 在水下人工智能领域实现了从数据到算法、从“看清”到“看懂”的关键突破。这不仅是技术的演进,更是助力人类探索蓝色疆域的能力飞跃。
面向未来,TeleAI 将在“智能光电”领域持续深耕,并依托智传网(AI Flow)的基础设施能力,不断推动水下多模态感知与具身智能技术的深度融合。TeleAI 将为人类在深邃海洋中的科学探索、经济发展与生态保护,贡献源源不断的智能科技力量。
来源:中国电信人工智能研究院

