大数跨境
0
0

Meta SAM 3:多模态引领视觉分割新纪元,图像视频一键精准分割

Meta SAM 3:多模态引领视觉分割新纪元,图像视频一键精准分割 小兵的AI视界
2025-11-26
2
导读:Segment Anything Model 3(SAM 3)是由 Meta 开发的最新一代视觉分割模型,能够基于文本、图像示例或视觉提示(如点、框)在图像和视频中检测、分割和跟踪对象。与前代模型相比

随着人工智能技术的发展,如何更高效、准确地实现对象的检测、分割和跟踪成为关键问题。Meta 最新推出的 Segment Anything Model 3SAM 3)为这一领域带来了重大突破。它不仅支持多种模态的提示输入,还能在图像和视频中实现零样本学习和实时交互性分割,极大地拓展了视觉分割的应用范围。

一、项目概述

Segment Anything Model 3SAM 3)是由 Meta 开发的最新一代视觉分割模型,能够基于文本、图像示例或视觉提示(如点、框)在图像和视频中检测、分割和跟踪对象。与前代模型相比,SAM 3 引入了可提示概念分割(Promptable Concept Segmentation, PCS)功能,能够处理开放词汇的概念提示,一次性返回所有匹配对象实例的分割掩码和唯一身份标识。该模型在新的 SA-Co 基准测试中性能显著提升,达到人类水平的 75%-80%,并且在多个公开基准测试中取得了最佳成绩。


二、核心功能

(一)多模态提示支持

SAM 3 支持多种模态的提示输入,包括文本、图像示例和视觉提示(如点、框、掩码)。用户可以通过简短的名词短语(如“黄色校车”)或提供目标对象的示例图像来指定概念,模型将返回所有匹配对象的分割掩码。这种多模态提示方式使得用户能够根据具体需求灵活选择输入方式,提高了模型的易用性和适应性。

(二)图像和视频分割

SAM 3 在图像和视频中都能实现高效的分割和跟踪功能。对于图像,模型能够检测并分割出所有匹配对象实例;对于视频,SAM 3 能够跟踪对象在不同帧中的位置,并实时生成分割掩码。此外,模型还支持实时交互性修正,用户可以通过添加额外的提示(如点击或框选)来优化分割结果。

(三)零样本学习

SAM 3 具备零样本学习能力,能够处理未见过的概念。通过开放词汇的文本提示,模型利用预训练的视觉和语言编码器识别和分割新的对象类别,无需额外训练即可实现对新类别的分割。这一特性使得 SAM 3 在面对未知或罕见对象时仍能保持较高的分割性能。

(四)实时交互性

SAM 3 支持实时交互性,用户可以在模型生成初始分割结果后,通过添加正负点击等交互方式来修正模型的错误。这种交互性不仅提高了分割结果的准确性,还增强了用户体验,使模型能够更好地适应用户的意图。


三、技术揭秘

(一)统一模型架构

SAM 3 基于统一的模型架构,同时支持图像和视频中的分割任务。模型的核心是一个视觉主干(vision backbone),它被图像级检测器和基于记忆的视频跟踪器共享。这种架构设计使得模型能够在不同任务之间共享特征表示,提高了计算效率。

(二)存在头(Presence Head

SAM 3 引入了一个存在头(Presence Head),专门用于预测目标概念是否存在于图像或视频中。这一设计将识别和定位任务解耦,显著提高了模型在处理复杂场景时的准确性和效率。

(三)大规模数据引擎

为训练SAM 3Meta 构建了一个高效的数据引擎,自动生成了超过 400 万个独特概念的高质量标注数据。这些数据覆盖了多种视觉领域和任务,确保模型具有广泛的泛化能力。

(四)视频跟踪和分割

在视频任务中,SAM 3 使用基于记忆的跟踪器处理对象的时空一致性。跟踪器利用检测器的输出和记忆中的历史信息,生成高质量的分割掩码,并在视频帧之间传播掩码。这种设计使得模型能够在视频中实时跟踪和分割对象,即使在对象被遮挡或出现干扰物的情况下也能保持良好的性能。


四、应用场景

(一)创意媒体工具

SAM 3 在创意媒体工具中的应用极为广泛。例如,在 Instagram Edits 中,创作者可以快速为视频中的人物或物体应用特效,提升创作效率。用户只需输入简单的文本提示,模型就能自动分割出目标对象并应用相应的特效。

(二)家居装饰预览

在家居装饰领域,SAM 3 支持“房间预览”功能。用户可以在 Facebook Marketplace 中上传家居装饰品的图片,通过 SAM 3 将其虚拟放置在自己的房间环境中,预览装饰效果。这一功能帮助用户更好地做出购买决策。

(三)科学应用

SAM 3 在科学研究中也有重要应用。例如,在野生动物监测中,研究人员可以利用 SAM 3 分析视频数据,自动检测和跟踪野生动物。模型能够识别不同物种的特征,并生成详细的分割掩码,帮助研究人员更好地了解动物的行为和生态。

(四)3D 重建

SAM 3D 能从单张图像重建 3D 物体和人体。这一功能为虚拟现实和增强现实应用提供了新的标准。通过 SAM 3D,用户可以从不同角度查看和编辑 3D 模型,实现更加沉浸式的体验。


五、快速使用

(一)环境准备

在使用SAM 3 之前,需要确保系统满足以下要求:

- Python 3.12 或更高版本

- PyTorch 2.7 或更高版本

- CUDA 兼容的 GPUCUDA 12.6 或更高版本

首先,创建一个新的Conda 环境并安装 PyTorch

conda create -n sam3 python=3.12conda activate sam3pip install torch==2.7.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

(二)安装SAM 3

克隆SAM 3 的 GitHub 仓库并安装相关依赖:

git clone https://github.com/facebookresearch/sam3.gitcd sam3pip install -e .

(三)基本使用示例

1. 图像分割

加载模型并使用文本提示进行图像分割:

import torchfrom PIL import Imagefrom sam3.model_builder import build_sam3_image_modelfrom sam3.model.sam3_image_processor import Sam3Processor # 加载模型model = build_sam3_image_model()processor = Sam3Processor(model) # 加载图像image = Image.open("<YOUR_IMAGE_PATH.jpg>")inference_state = processor.set_image(image) # 使用文本提示output = processor.set_text_prompt(state=inference_state, prompt="<YOUR_TEXT_PROMPT>") # 获取分割掩码、边界框和分数masks, boxes, scores = output["masks"], output["boxes"], output["scores"]

2. 视频分割

加载视频并使用文本提示进行视频分割:

from sam3.model_builder import build_sam3_video_predictor # 初始化视频预测器video_predictor = build_sam3_video_predictor()video_path = "<YOUR_VIDEO_PATH>"  # 可以是 JPEG 文件夹或 MP4 视频文件 # 开始会话response = video_predictor.handle_request(    request=dict(        type="start_session",        resource_path=video_path,    )) # 添加文本提示response = video_predictor.handle_request(    request=dict(        type="add_prompt",        session_id=response["session_id"],        frame_index=0,  # 任意帧索引        text="<YOUR_TEXT_PROMPT>",    )) # 获取输出output = response["outputs"]

六、结语

Segment Anything Model 3SAM 3)作为 Meta 在视觉分割领域的最新成果,凭借其强大的多模态提示支持、零样本学习能力和实时交互性,为计算机视觉的应用开辟了新的可能性。无论是在创意媒体工具、家居装饰预览还是科学研究中,SAM 3 都展现出了卓越的性能和广泛的应用前景。随着技术的不断进步和应用场景的不断拓展,SAM 3 必将为我们的生活和工作带来更多便利。

项目地址

项目官网:https://ai.meta.com/sam3/

GitHub 仓库:https://github.com/facebookresearch/sam3/

在线体验https://www.aidemos.meta.com/segment-anything


点亮“关注”,设为“星标”,精彩不迷路!与你携手探索AI的无限可能,精彩内容持续更新!🚀


【声明】内容源于网络
0
0
小兵的AI视界
专注 AI 领域:AI前沿资讯/开源精品/实用工具,大模型应用开发/部署推理/微调实践,助你领航 AI。
内容 460
粉丝 0
小兵的AI视界 专注 AI 领域:AI前沿资讯/开源精品/实用工具,大模型应用开发/部署推理/微调实践,助你领航 AI。
总阅读62
粉丝0
内容460