>

极市直播回放第128期丨CVPR2024：视觉新骨干ViT-CoMer在密集预测任务中的应用

>

0

0



极市直播回放第128期丨CVPR2024：视觉新骨干ViT-CoMer在密集预测任务中的应用

极市直播回放第128期丨CVPR2024：视觉新骨干ViT-CoMer在密集预测任务中的应用

极市平台

2024-04-02

0

↑ 点击蓝字关注极市平台

本次分享我们邀请到了百度资深算法工程师夏春龙，为大家详细介绍他们中稿CVPR2024的工作：

ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions

GitHub：https://github.com/Traffic-X/ViT-CoMer

论文地址：https://arxiv.org/pdf/2403.07392.pdf

“尽管Vision Transformer 在计算机视觉中取得了显著成功，但由于缺乏局部信息交互和特征尺度多样性有限，它在密集预测任务中的表现并不理想。大多数现有研究致力于设计特定的视觉transformer框架来解决上述问题，这增加了额外的预训练成本。

因此，我们提出了一种简洁的、无需预训练的、卷积多尺度特征增强的ViT骨干网络，命名为ViT-CoMer，它解决了ViT尺度单一的问题，同时通过层级特征之间的相互交互，语义信息更加丰富。与最先进的方案相比，ViT-CoMer能够在COCO val2017上达到了64.3% AP，在ADE20K val上达到了62.1% mIoU，均可与最先进的方法媲美。我们希望ViT-CoMer能成为密集预测任务的新骨干，以促进未来的研究。”

后台回复“极市直播”或点击阅读原文即可获取PPT

➤详情传送门

极市直播预告｜CVPR2024：视觉新骨干ViT-CoMer在密集预测任务中的应用

➤回放视频在这里☟

https://www.bilibili.com/video/BV1nm421E73X/

➤PPT内容截图（后台回复“极市直播”或点击阅读原文即可获取PPT）

➤往期视频在线观看

B站：http://space.bilibili.com/85300886#!/

腾讯视频：http://v.qq.com/vplus/8be9a676d97c74ede37163dd964d600c

往期线上分享集锦：http://m6z.cn/6qIJzE（或直接阅读原文）

如果觉得有用，就请分享到朋友圈吧！

△点击卡片关注极市平台，获取最新CV干货

推荐阅读

极市直播第125期丨Ponder: 通用3D预训练模型，三维神经渲染模拟人类感知

极市直播第124期丨ICLR23：真实世界中的鲁棒目标检测，简单高效的目标检测域泛化方法

极市直播第123期丨ICCV 2023-DiffRate：Vision Transformer中的可微分token压缩率

极市直播第122期丨CVPR23 冠军方案-基于单目图像的绝对深度估计与3D场景重建（ICCV2023）

极市直播第121期丨ICCV2023-FLatten Transformer：简单高效的线性注意力模型

极市直播第120期丨ICCV2023-MFF: 简单高效的多级特征融合自监督方法

极市直播第119期丨Meta-Transformer：一个学习框架解决十二种模态

# CV技术社群邀请函 #

△长按添加极市小助手

添加极市小助手微信（ID : cvmart2）

备注：姓名-学校/公司-研究方向-城市（如：小极-北大-目标检测-深圳）

即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群

每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

觉得有用麻烦给个在看啦~

【声明】内容源于网络

0

0

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

内容 8155

粉丝 0

极市平台为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

总阅读8.7k

粉丝0

内容8.2k