大数跨境
0
0

模速生态 | 从“看清”到“看懂”,TeleAI 构建水下视觉大模型的感知利器与认知基石

模速生态 | 从“看清”到“看懂”,TeleAI 构建水下视觉大模型的感知利器与认知基石 上海模速空间大模型创新生态社区
2025-11-19
0
导读:让 AI 认识海洋,理解海洋

海洋是生命起源的摇篮,也是维系人类生存发展的资源宝库和生态屏障。百年来,人类对海洋的探索从未停止,从郑和下西洋,到哥伦布发现新大陆,再到深海探测器、海底观测网、海洋卫星......每一次技术突破、每一个未知的揭晓,都让人们更深刻地意识到,探索海洋,不仅是为当下的需求汲取力量,也是为可持续的发展加强保障。



随着人工智能的快速发展,涉水光学涉水视觉等相关技术被越来越广泛地应用于海洋工程与深海探测。然而,由于强烈的光线衰减、诡谲的色彩失真,以及悬浮颗粒造成的散射效应,海洋内部构成了一道视觉屏障,让习惯于清晰场景的 AI 模型在此“失明”或“认知混乱”,难以施展其能。


要探索海洋,就需要构建一套从“看见”到“看清”,再到“看懂 的完整智能化体系,给 AI 装上一双强大的 慧眼 。此前,中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授带领团队打造了 全海深高清相机、全海深超高清 3D 相机及全景相机等,并牵头制定《水下相机光学系统像质测试方法》团体标准,为 看见 看清 提供了硬件基础与衡量准则。


为了进一步释放 AI 的全部潜能,不仅 看清 还能 看懂 ,李学龙教授带领 TeleAI 科研团队以智传网(AI Flow)的理论框架为基础,提出“开放词汇实例分割框架 Maris”和“水下视觉语言综合基准 UWBench”,构成水下 AI 的感知认知核心,让智能算法从像素识别升级为语义理解,实现真正看懂深海奥秘的关键跃升。


相关论文:

D. Zhang et al., UWBench: A Comprehensive Vision-Language Benchmark for Underwater Understanding, arXiv:2510.18262.

 

B. Li et al., MARIS: Marine Open-Vocabulary Instance Segmentation with Geometric Enhancement and Semantic Alignment, arXiv:2510.15398.



看懂海洋

攻克感知与认知双重挑战

要让 AI 真正“看懂”海洋,仅仅是“看清”影像还远远不够,必须攻克两大核心瓶颈。


首先,感知局限。

 

传统的 AI 视觉技术,特别是实例分割,通常采用封闭词汇模式,即只能识别出那些在训练中被明确定义和标注过的物体。但海洋是一个充满无限未知的开放世界,不可能预先定义所有物种和物体。如何让 AI 具备举一反三的能力,精准识别并描绘出视野中的一切?这是感知的难题。


  

其次,认知鸿沟。

 

AI 的智能源于数据然而现有的大型视觉-语言模型大多基于陆地场景训练,面对形态各异的海洋生物、复杂的水下地貌和专业的人工设施,它们就像一个没读过海洋学教科书的学生,缺乏理解这一切的背景知识。因此,如何让 AI 不仅能看见图像,更能深度理解其中事物的名称、关系与规律这是认知的难题。



方案 1Maris,打造感知利器。

 

面对感知局限TeleAI 团队进一步提出了首个大规模水下开放词汇分割基准 Maris 及配套的创新框架,赋予 AI 一双能够洞察未知、看清万物的火眼金睛


Maris 框架

该框架的核心在于两大创新模块,即几何先验增强模块(GPEM)和语义对齐注入机制(SAIM。当水下图像因浑浊而模糊不清时,GPEM 模块能利用物体稳定的局部结构和轮廓线条索,智能“脑补”出目标的完整形态,确保在恶劣视觉条件下也能“看得稳”

 

SAIM 模块则通过向模型注入海洋领域的专业先验知识,丰富 AI 对水下词汇的理解,消除语义歧义。这使得模型不仅能认出“海葵”,还能在没有见过的情况下,通过语言描述去识别“一种附着在岩石上、有许多触手的生物”,确保对未知类别也能“认得准”


方案 2UWBench,构建认知基石。

针对认知鸿沟TeleAI 专为水下视觉-语言理解设计综合性基准数据集 UWBench。它不只是一批数据,更是一本为 AI 精心编纂的海洋百科全书


UWBench 框架

UWBench 包含超过 1.5 万张高分辨率图像,涉及海洋、珊瑚礁、深海栖息地等多样化环境并配有 1.5 万条由人工标注的精准物体描述,以及近 12.5 万组从物体识别到生态关系推理的复杂问答对。

 

同时,此数据集完整覆盖了从清晰到浑浊、从明亮到幽暗的各种真实水下视觉条件,为模型提供最贴近现实的考场。它围绕详细图像描述、视觉定位和视觉问答建立了三大核心基准,能够系统性地评估 AI 对水下场景的综合理解能力。 



Maris 框架的突破标志着水下视觉感知技术从封闭世界理解真正迈向了的开放世界探索。而 UWBench 则为训练 AI 大模型能够真正理解海洋提供了关键的知识基石,让 AI 的水下认知有据可依。 

 

结合智传网(AI Flow)的分布式架构,Maris 的“感知能力”与 UWBench 的“认知能力”可以被灵活部署到各类水下智能设备中,并通过“端--云”的同源模型协同能力,催生出更多丰富的智慧海洋应用。

 

例如,在海洋生态监测中,搭载该技术的自主潜航器(AUV)能实现 7x24 小时不间断进行大规模生物多样性普查,自动识别、分割统计珊瑚鱼群,甚至能高亮标记出潜在的新物种,极大提升了生态保护的效率与广度。



在诸如海底光缆巡检、水下设备维护、沉船搜寻等水下工程与搜救任务中,水下具身智能可以不受浑浊水体和未知障碍物的干扰,精准地识别和定位目标,保障国家水下信息高速公路的安全与畅通。

 

从打造感知利器的 Maris,到构建认知基础的 UWBenchTeleAI 在水下人工智能领域实现了从数据到算法、从看清看懂的关键突破。这不仅是技术的演进,更是助力人类探索蓝色疆域的能力飞跃

 

面向未来,TeleAI “智能光电”领域持续深耕,并依托智传网(AI Flow)的基础设施能力,不断推动水下多模态感知与具身智能技术的深度融合。TeleAI 将为人类在深邃海洋中的科学探索、经济发展与生态保护,贡献源源不断的智能科技力量。


来源:中国电信人工智能研究院

【声明】内容源于网络
0
0
上海模速空间大模型创新生态社区
“模速空间”是全国首个大模型专业孵化和加速载体,立足徐汇滨江,基于“十百千万”目标,打造数据、算力、评测、金融、综合等功能平台,赋能各通用大模型、垂类大模型、大模型应用创新初创企业汇聚上海、引领全国、扬帆世界。
内容 597
粉丝 0
上海模速空间大模型创新生态社区 “模速空间”是全国首个大模型专业孵化和加速载体,立足徐汇滨江,基于“十百千万”目标,打造数据、算力、评测、金融、综合等功能平台,赋能各通用大模型、垂类大模型、大模型应用创新初创企业汇聚上海、引领全国、扬帆世界。
总阅读769
粉丝0
内容597