在视觉任务中,我们常常需要对不同的图片进行感知和编辑,系统能够精准判断用户的意图非常重要。目前大部分工作都是基于纯语言与LLM进行交互,但由于受语言模型以及后端任务推理的能力限制,系统很难精准响应人们的请求。
本次分享我们邀请到了上海人工智能实验研究员刘兆洋,为大家介绍他们的工作:
InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT Beyond Language
“我们结合指点设备和语言,提出了InternGPT,让视觉交互系统能够更精准地感知用户意图。即使在复杂的场景中,InternGPT也能完成感知、编辑、创作和视觉问答等任务。“
极市直播|让ChatGPT更懂视觉任务!InternGPT: 基于点击-语言驱动的视觉交互系统
➤论文
论文地址: https://arxiv.org/pdf/2305.05662.pdf
代码地址: https://github.com/OpenGVLab/InternGPT
在线Demo:https://igpt.opengvlab.com
➤回放视频在这里☟



往期线上分享集锦:http://m6z.cn/6qIJzE(或直接阅读原文)
如果觉得有用,就请分享到朋友圈吧!
推荐阅读
# CV技术社群邀请函 #
备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)
即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群
每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

