大数跨境
0
0

从DINOv3到SAM3,Meta 到底还能给我们多少惊喜?SAM3开源了:一个模型统一检测、分割与跟踪!

从DINOv3到SAM3,Meta 到底还能给我们多少惊喜?SAM3开源了:一个模型统一检测、分割与跟踪! 睐芯科技LightSense
2025-11-22
10
导读:口号很简单:一个模型,搞定一切视觉识别任务!

视频可提示细粒度分割

还记得年初那个无需微调就能“理解”任意图片的DINOv3吗?当时就感叹到Meta 在自监督视觉领域的暴力美学又将引领新一代的视觉大模型。

这边还没捂热乎,Meta MSL 实验室正式开源了视觉领域中“分割一切”模型的终极形态:SAM 3,其口号很简单:一个模型,搞定一切视觉识别任务。 

而视频的可提示细粒度分析如果能实现,将催生很多交互式视觉应用,例如在监控分析时提到 帮我圈出视频里那只穿白衣服的小男孩,并描述他在做什么?

这句话看似简单,但无论是最先进的感知模型还是视频 MLLMs 都无法实现这一点,模型要以细粒度的方式理解视频内容,最重要的是能用语言描述分割和跟踪像素,以及对视频中的视觉提示执行 VQA。而现在正式开源的SAM 3可能成为上述问题的解决方案。

  • SAM 1 (2023) 指哪打哪。通过点、框提供视觉提示,它就能在零样本条件下,精准勾勒出任何陌生物体的掩码,开创了提示分割的新纪元。  

  • SAM 2 (2024) 过目不忘。将分割能力从静态图像扩展至动态视频,能记住目标在之前帧中的模样,从而实现跨帧的实时、稳定跟踪。 

  • SAM 3 (2025) 心领神会。擅长开放式词汇分割,允许用户使用简单的名词短语(如 "黄色校车"、"条纹猫")来指定概念,让交互变得无比自然。 

总的来讲,SAM 3 可以使用开放词汇文本或视觉提示来检测、分割和跟踪图像和视频中的所有匹配对象。Meta 开源了模型权重、评估数据集和微调代码,直接安装即可使用。


    
     
    # 项目
https://ai.meta.com/sam3/

# 论文
https://ai.meta.com/research/publications/sam-3-segment-anything-with-concepts/

# 代码
https://github.com/facebookresearch/sam3

# 演示
https://www.aidemos.meta.com/segment-anything/

一、更懂语义、分割更灵活的SAM3

1. 性能SAM 3 在图像和视频的所有文本和视觉分割任务中均处于最先进水平。此外,该模型还保留了 SAM 2 的所有性能和功能。在 SA-Co 基准数据集上,SAM 3 的 cgF1 分数比现有最佳模型高一倍,将Gemini2.5、OWLv2 等一众大模型远远甩在身后。

2. 效率:SAM 3还具有超快的推理速度,在单张英伟达H200 GPU上,处理一张包含上百个物体的复杂图片,仅需30毫秒!并且全面快于SAM 1,在视频中也能对约5个并发对象保持近乎实时的性能。

3. 功能:它统一了以往需要多个模型才能完成的检测(找出来)、分割(抠出来)、追踪(在视频里跟住)三大任务,并且支持文本、图片、点、框等各种提示方式。

最关键的是引入了“可提示概念分割”的全新机制。这意味着用户不再受限于固定标签,而是可以用自然语言(如“戴着红色帽子的男孩”)或提供示例图片,让模型智能识别并分割所有符合该“概念”的物体。

4. 部署:没有花哨的跨模态融合,也没有额外 RLHF,所有输出统一成“概念掩膜”一个格式,因此部署也相对容易。


      
       
      # 安装依赖环境
git clone https://github.com/facebookresearch/sam3.git
cd sam3
pip install -e .

# 执行代码推理

import
 torch
#################################### For Image ####################################

from
 PIL import Image
from
 sam3.model_builder import build_sam3_image_model
from
 sam3.model.sam3_image_processor import Sam3Processor
# Load the model

model = build_sam3_image_model()
processor = Sam3Processor(model)
# Load an image

image = Image.open("<YOUR_IMAGE_PATH.jpg>")
inference_state = processor.set_image(image)
# Prompt the model with text

output = processor.set_text_prompt(state=inference_state, prompt="<YOUR_TEXT_PROMPT>")

# Get the masks, bounding boxes, and scores

masks, boxes, scores = output["masks"], output["boxes"], output["scores"]

二、分割一切的进一步表示

SAM3 的优点有很多,但是其仍可能缺乏语言交互能力。文中也提到让用文本提示SAM 3从图像中找到符合描述的物体,其可以处理稍复杂的语言描述,例如输入“条纹猫”。但对更通用的VQA或者长语言描述呢?

谷歌 DeepMind 团队的这篇工作弥补了目前大模型在视频理解上的不足,在一个模型里同时支持了可提示视频物体分割、指代表达分割和物体描述三项任务。

另外 Meta MSL 实验室一同发布了三维重建模型SAM 3D,包含两个新模型:SAM 3D Objects,用于物体和场景重建,能够从单张自然图像中实现基于视觉的3D重建和物体姿态估计;以及SAM 3D Body,专注于人体,能够将静态2D图像转换为精细的3D重建模型。

未来视觉任务还需要分阶段的 pipeline 处理吗?欢迎留言区讨论。最后,关注视觉大模型与多模态大模型的小伙伴们可留言区回复‘加群’进入大模型交流群、视觉应用落地交流群!

//

近期大模型热门文章

一个模型搞定九大任务!基于Qwen2.5-VL实现指代/推理/交互分割等


开放词汇检测范式再升级!IDEA重磅开源指代目标检测模型Rex-Thinker



图片

IDEA最新开源:一个模型支持十多种视觉任务!


【声明】内容源于网络
0
0
睐芯科技LightSense
1234
内容 795
粉丝 0
睐芯科技LightSense 1234
总阅读1.8k
粉丝0
内容795