在迈向通用人工智能(AGI)的诸多可能的方向中,发展多模态大模型(MLLM)已然成为当前炙手可热的重要路径。多模态之间的互补性可以增强人工智能的学习能力,比如,CLIP 将图像与文本进行统一学习的方式就取得了巨大的成功。但受限于多种模态之间巨大的差异性以及现有多模态模型对配对数据的依赖性,实现模态通用感知存在着艰巨挑战。
为了解决上述挑战,香港中文大学多媒体实验室(CUHK MMLab)联合上海人工智能实验室的OpenGVLAB研究团队提出一个统一多模态学习框架 Meta-Transformer
本次分享我们邀请到了香港中文大学的博士生龚凯雄,为大家详细介绍他们的工作:
Meta-Transformer: A Unified Framework for Multimodal Learning
“为了解决上述挑战,近日,我们提出一个统一多模态学习框架 ——Meta-Transformer,采用全新的设计思路,借助大规模预训练模型的跨模态涌现能力,通过统一学习无配对数据,可以理解 12 种模态信息。”
➤论文
项目网站:https://kxgong.github.io/meta_transformer/
论文地址:https://arxiv.org/abs/2307.10802
代码地址:https://github.com/invictus717/MetaTransformer
➤回放视频在这里☟



往期线上分享集锦:http://m6z.cn/6qIJzE(或直接阅读原文)
如果觉得有用,就请分享到朋友圈吧!
推荐阅读
# CV技术社群邀请函 #
备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)
即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群
每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

