模速生态 | 从“看清”到“看懂”，TeleAI 构建水下视觉大模型的感知利器与认知基石

上海模速空间大模型创新生态社区

2025-11-19

导读：让 AI 认识海洋，理解海洋

海洋是生命起源的摇篮，也是维系人类生存发展的资源宝库和生态屏障。百年来，人类对海洋的探索从未停止，从郑和下西洋，到哥伦布发现新大陆，再到深海探测器、海底观测网、海洋卫星......每一次技术突破、每一个未知的揭晓，都让人们更深刻地意识到，探索海洋，不仅是为当下的需求汲取力量，也是为可持续的发展加强保障。

随着人工智能的快速发展，涉水光学、涉水视觉等相关技术被越来越广泛地应用于海洋工程与深海探测。然而，由于强烈的光线衰减、诡谲的色彩失真，以及悬浮颗粒造成的散射效应，海洋内部构成了一道视觉屏障，让习惯于清晰场景的 AI 模型在此“失明”或“认知混乱”，难以施展其能。

要探索海洋，就需要构建一套从“看见”到“看清”，再到“看懂 ” 的完整智能化体系，给 AI 装上一双强大的 “ 慧眼 ” 。此前，中国电信集团 CTO、首席科学家、中国电信人工智能研究院（TeleAI）院长李学龙教授带领团队打造了全海深高清相机、全海深超高清 3D 相机及全景相机等，并牵头制定《水下相机光学系统像质测试方法》团体标准，为 “ 看见 ” 和 “ 看清 ” 提供了硬件基础与衡量准则。

为了进一步释放 AI 的全部潜能，不仅 “ 看清 ” 还能 “ 看懂 ” ，李学龙教授带领 TeleAI 科研团队以智传网（AI Flow）的理论框架为基础，提出“开放词汇实例分割框架 Maris”和“水下视觉语言综合基准 UWBench”，构成水下 AI 的“感知”与“认知”核心，让智能算法从“像素识别”升级为“语义理解”，实现真正“看懂”深海奥秘的关键跃升。

相关论文：

D. Zhang et al., UWBench: A Comprehensive Vision-Language Benchmark for Underwater Understanding, arXiv:2510.18262.

B. Li et al., MARIS: Marine Open-Vocabulary Instance Segmentation with Geometric Enhancement and Semantic Alignment, arXiv:2510.15398.

“看懂”海洋

攻克感知与认知双重挑战

要让 AI 真正“看懂”海洋，仅仅是“看清”影像还远远不够，必须攻克两大核心瓶颈。

首先，感知局限。

传统的 AI 视觉技术，特别是实例分割，通常采用“封闭词汇”模式，即只能识别出那些在训练中被明确定义和标注过的物体。但海洋是一个充满无限未知的“开放世界”，不可能预先定义所有物种和物体。如何让 AI 具备“举一反三”的能力，精准识别并“描绘”出视野中的一切？这是“感知”的难题。

其次，认知鸿沟。

AI 的智能源于数据，然而现有的“大型视觉-语言模型”大多基于陆地场景训练，面对形态各异的海洋生物、复杂的水下地貌和专业的人工设施，它们就像一个没读过海洋学“教科书”的学生，缺乏理解这一切的背景知识。因此，如何让 AI 不仅能“看见”图像，更能深度“理解”其中事物的名称、关系与规律？这是“认知”的难题。

方案 1：Maris，打造感知利器。

面对“感知局限”，TeleAI 团队进一步提出了首个大规模水下开放词汇分割基准 Maris 及配套的创新框架，赋予 AI 一双能够洞察未知、看清万物的“火眼金睛”。

Maris 框架

该框架的核心在于两大创新模块，即几何先验增强模块（GPEM）和语义对齐注入机制（SAIM）。当水下图像因浑浊而模糊不清时，GPEM 模块能利用物体稳定的局部结构和轮廓线条索，智能“脑补”出目标的完整形态，确保在恶劣视觉条件下也能“看得稳”。

SAIM 模块则通过向模型注入海洋领域的专业先验知识，丰富 AI 对水下词汇的理解，消除语义歧义。这使得模型不仅能认出“海葵”，还能在没有见过的情况下，通过语言描述去识别“一种附着在岩石上、有许多触手的生物”，确保对未知类别也能“认得准”。

方案 2：UWBench，构建认知基石。

针对“认知鸿沟”，TeleAI 专为水下“视觉-语言理解”设计了综合性基准数据集 UWBench。它不只是一批数据，更是一本为 AI 精心编纂的海洋“百科全书”。

UWBench 框架

UWBench 包含超过 1.5 万张高分辨率图像，涉及海洋、珊瑚礁、深海栖息地等多样化环境，并配有 1.5 万条由人工标注的精准物体描述，以及近 12.5 万组从物体识别到生态关系推理的复杂问答对。

同时，此数据集还完整覆盖了从清晰到浑浊、从明亮到幽暗的各种真实水下视觉条件，为模型提供最贴近现实的“考场”。它围绕详细图像描述、视觉定位和视觉问答建立了三大核心基准，能够系统性地评估 AI 对水下场景的综合理解能力。

Maris 框架的突破标志着水下视觉感知技术从“封闭世界理解”真正迈向了的“开放世界探索”。而 UWBench 则为训练 AI 大模型能够真正“理解”海洋提供了关键的知识基石，让 AI 的水下认知有据可依。

结合智传网（AI Flow）的分布式架构，Maris 的“感知能力”与 UWBench 的“认知能力”可以被灵活部署到各类水下智能设备中，并通过“端-边-云”的同源模型协同能力，催生出更多丰富的智慧海洋应用。

例如，在海洋生态监测中，搭载该技术的自主潜航器（AUV）能实现 7x24 小时不间断进行大规模生物多样性普查，自动识别、分割、统计珊瑚和鱼群等，甚至能高亮标记出潜在的新物种，极大提升了生态保护的效率与广度。

在诸如海底光缆巡检、水下设备维护、沉船搜寻等水下工程与搜救任务中，水下具身智能可以不受浑浊水体和未知障碍物的干扰，精准地识别和定位目标，保障国家“水下信息高速公路”的安全与畅通。

从打造感知利器的 Maris，到构建认知基础的 UWBench，TeleAI 在水下人工智能领域实现了从数据到算法、从“看清”到“看懂”的关键突破。这不仅是技术的演进，更是助力人类探索蓝色疆域的能力飞跃。

面向未来，TeleAI 将在“智能光电”领域持续深耕，并依托智传网（AI Flow）的基础设施能力，不断推动水下多模态感知与具身智能技术的深度融合。TeleAI 将为人类在深邃海洋中的科学探索、经济发展与生态保护，贡献源源不断的智能科技力量。

来源：中国电信人工智能研究院

【声明】内容源于网络

上海模速空间大模型创新生态社区

“模速空间”是全国首个大模型专业孵化和加速载体，立足徐汇滨江，基于“十百千万”目标，打造数据、算力、评测、金融、综合等功能平台，赋能各通用大模型、垂类大模型、大模型应用创新初创企业汇聚上海、引领全国、扬帆世界。

内容 597

粉丝 0

上海模速空间大模型创新生态社区 “模速空间”是全国首个大模型专业孵化和加速载体，立足徐汇滨江，基于“十百千万”目标，打造数据、算力、评测、金融、综合等功能平台，赋能各通用大模型、垂类大模型、大模型应用创新初创企业汇聚上海、引领全国、扬帆世界。

总阅读769

粉丝0

内容597