>

38.7fps！EdgeSAM = RepViT + SAM，移动端超强变种，已开源！

>

0

0



38.7fps！EdgeSAM = RepViT + SAM，移动端超强变种，已开源！

38.7fps！EdgeSAM = RepViT + SAM，移动端超强变种，已开源！

极市平台

2024-03-11

2

↑ 点击蓝字关注极市平台

作者丨AIWalker

来源丨AIWalker

编辑丨极市平台

极市导读

SAM轻量化的终点竟然是RepViT + SAM，移动端速度可达38.7fps。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

对于 2023 年的计算机视觉领域来说，「分割一切」（Segment Anything Model）是备受关注的一项研究进展。尽管SAM具有各种优势，但速度慢是其不得不提的一个缺点，端侧根本就跑不动。研究者们也提出了一些改进策略：将默认 ViT-H 图像编码器中的知识提炼到一个微小的 ViT 图像编码器中，或者使用基于 CNN 的实时架构降低用于 Segment Anything 任务的计算成本。

就在今日，arXiv上同时公开两篇SAM轻量化的方法EdgeSAM、RepViT-SAM，更巧合的是两者采用了完全相同的Image Encoder模块：RepViT；两者也都在手机端达到了超快处理速度，值得一提的是：EdgeSAM能在iphone14手机上达到38.7fps的处理速度。

https://arxiv.org/abs/2312.05760
https://github.com/THU-MIG/RepViT

该方案延续了MobileSAM的处理方式，即采用原生SAM的ViT Encoder模块对所替换的Encoder模块进行知识蒸馏。

在实现方面，RepViT-SAM引入了移动端新秀[RepViT]的RepViT-M2.3作为图像编码器提取图像特征；
在老师模型方面，它选用了SAM-ViT-H版本进行蒸馏。
在应用方面，该方案进行了多种任务适配，如Mask预测、边缘检测等。

https://arxiv.org/abs/2312.06660
https://github.com/chongzhou96/EdgeSAM

相比而言，EdgeSAM方法上会显得更优异：它并非仅仅参考MobileSAM进行了Image Encoder的蒸馏，还仔细分析了不同蒸馏策略并证实：任务不可知的编码器蒸馏难以学习到SAM所具备的全部知识。

有鉴于此，作者提出：循环使用bbox与point提示词，同时对提示词编码器与Mak解码器进行蒸馏，以便于蒸馏模型能够准确的学习到提示词与Mask之间的复杂关系。

在2080Ti上，相比原生SAM，EdgeSAM推理速度快40倍；
在iPhone14上，相比MobileSAM，EdgeSAM推理速度快14倍，达到了38.7fps。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜ICCV2023论文解读｜极市直播

极视角动态：欢迎高校师生申报极视角2023年教育部产学合作协同育人项目｜新视野+智慧脑，「无人机+AI」成为道路智能巡检好帮手！

技术综述：四万字详解Neural ODE：用神经网络去刻画非离散的状态变化｜transformer的细节到底是怎么样的？Transformer 连环18问！

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络

0

0

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

内容 8155

粉丝 0

极市平台为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

总阅读919

粉丝0

内容8.2k