大数跨境
0
0

多模态大模型是通向AGI的必经之路|行业洞察

多模态大模型是通向AGI的必经之路|行业洞察 非凡产研
2024-03-11
44
导读:多模态才是通向AGI(Artificial General Intelligence)的必经之路。

   背景介绍

2024年1月24日,非凡资本联合诸多合作伙伴在上海举行了“2024 AIGC应用发展高峰论坛”,近千名AI相关从业者参与了本次活动。本期内容整理自嘉宾主题演讲环节。

   嘉宾

中国人民大学高瓴人工智能学院教授 卢志武
   主题演讲
我来自中国人民大学悟道·文澜团队,过去的两三年里我一直在做多模态大模型。在智源研究院的支持下,我们从2020年就开始做多模态大模型研究,在2021年3月就提出了第一个版本的文澜模型(与Open AI的CLIP模型高度类似,只有些细节的差异),而后我们将其规模不断做大,数据量得到提升。
通过这个项目,我们团队积累了不少关于大模型研究的经验,团队成员也快速成长起来。文澜团队在多模态领域有不少产出,例如在《nature》子刊上曾发表过一些具有较强影响力的论文。
多模态大模型是通向AGI的必经之路|行业洞察
多模态大模型是通向AGI的必经之路|行业洞察

1、多模态通用生成模型

在当下,无论是Open AI·CLIP模型还是文澜模型,其本质皆为检索式模型,特点是偏重理解式应用。众所周知从去年开始,生成式模型非常火爆,故而我认为:在多模态领域,生成式模型也值得研究。我将这个研究方向就命名为:多模态通用生成模型,即兼具多模态输入与输出。
多模态大模型是通向AGI的必经之路|行业洞察
基于上述假设,该模型不仅需要具备将图像、文本接收进来的功能,还要拥有事件生成与文本生成的特质。在此基础上可以衍生出很多想法和做法。例如:将不同的模态(图形或者文字)用编码器统一编码后放置到一个隐空间,再用生成器,当然生成器可以是统一或者是多个——比如,视觉与文本分属两个不同的生成器。当然这种想法多如牛毛,实现路径也有很多。
其一,工程化手段。
多模态大模型是通向AGI的必经之路|行业洞察
比如微软提出的Visual Chat GPT,最终目的是实现多模态通用生成模型,并且做法非常简单——其将ChatGPT当作指令中台,调取各种各样的多模态生成模型,自然语言输入后被解码出来,让它去执行相应的模型,最终实现多模态通用生成模型。
其二,学术化手段。
多模态大模型是通向AGI的必经之路|行业洞察
清华朱军老师团队提出的UniDiffuser模型。众所周知,目前图像生成里最好的模型是diffusion模型(扩散模型),其核心结构为unit,而unit作为一个CNN结构,目前做文本生成最好的是Transformer架构;故此清华大学团队将unit结构换成Transformer类,换成ViT(Visual Transformer);最终把视觉生成和语言生成统一在Transformer框架下。
原本需要两个decoder(解码器):视觉decoder与语言decoder各一个,但是朱老师这个模型就只需要一个decoder就够了。
其三,Google Gemini路线。
多模态大模型是通向AGI的必经之路|行业洞察
最近,Google发布了一个新模型与我的想法非常相像:采用两个decoder,因为视觉生成和语言生成的特点不同,所以我认为两个decoder很合理。另外,Google虽然被称为是原生态的多模态,但在我看来本质并无差别,唯一差别在于:我们的做法/大部分人的做法是更倾向于图像一个encoder(编码器),文本一个encoder,声音一个encoder;但是Google的做法则是把所有的模态用同一个encoder编码。
每一种做法皆有优点。Google做法的好处在于:由于各个模态同时训练,因此声音与图像的转换更自然,效果更好。但也有坏处:即在实际业务场景中增添或删减固定模态耗资巨大。
举例而言,训练其中一个模特的大语言模型花了1亿美金,如果后续再加一个模态又得花1亿美金,这样的耗资体量不是小机构或者小团队能承受的。但是如果采用我们的做法/大多数人的做法,每一个模态为一个单独的encoder,后续再加一个encoder,成本就会降低很多。
综上所述,我认为:不管是否为原生态多模态,我们的选择需要以实际情况为依据,进而走一条合适自己的路。
多模态大模型是通向AGI的必经之路|行业洞察

2、多模态是通向AGI的必经之路

除此之外,虽然ChatGPT或者GPT 4特别厉害,但是我认为单凭大语言模型是实现不了通用人工智能的,一定要加上多模态;同时,我坚信:多模态才是通向AGI(Artificial General Intelligence)的必经之路,并且我们也会按照这个思路去践行。
类似于Open AI,我们创建了一个多模态的生成模型,特别针对语言生成,具体操作为将图像输入与文本输入通过一些转换进入一个语言模型里后,生成一系列语言,能实现围绕着一个图像与其对话的效果。
而这样一个模型要训练好,至少需要两个阶段的训练:首先是预训练阶段,即给一张图后能准确描述与检测,能做OCR识别,甚至更多的任务,在此阶段我们就需要收集大量数据丢到模型里去进行训练;在第二个阶段就需要我们结合实际情况,设计出能承接人类复杂千变指令的精巧的指令集。
这两个阶段都非常重要。第一阶段数据量一定要大,数据质量可以不用太高标准;第二阶段指令可以减少,但质量一定要高。通过这种方法训练好模型以后,就可以直接测出想要的效果。我们基于此方式训练出的模型Chatlmg3.0质量已经接近于GPT - 4V。
多模态大模型是通向AGI的必经之路|行业洞察
GPT - 4V最大的一个弱点就在于:你怎么问他就怎么答,并且他一般都不会拒绝你。但是我们的生成模型能够很好地规避此类问题,回答更符合中国人习惯,也更符合中国实际环境。
同时我们在公开数据集上评测之后发现:在数据集上或者在大众所关注的一些能力上,Chatlmg3.0有希望逼近Open AI的水平;其表现也远远超越国内一些开源模型。
多模态大模型是通向AGI的必经之路|行业洞察
除此之外,Chatlmg3.0在实际业务应用中也体现出了直观优势。尤其在电力行业和城市治理场景下,Chatlmg3.0的效果超越了大部分现有多模态大模型。并且,Chatlmg3.0以单个统一的大模型,超越在各个领域单独设计训练的传统小模型。
更重要的是,我们在各种场景下的测评都发现,多模态大模型的表现始终要比传统模型更好,这让我们在新一代AI中看到了巨大希望。小模型无法满足很多复杂场景,但Chatlmg3.0却有超高分表现。
有关多模态生成视觉的实际应用我们也有所涉猎。近日AI热点就是视频生成,我们的模型是一个绝对原创性底座模型,它完全由Transformer架构,同时吸收了扩散模型或diffusion的优点;故此,它整体是一个diffusion,但是其关键模块是由Transfer架构。在此基础上,就能展现它独特的优势:关键模块将Transformer和diffusion的优点结合在一起,能对视频生成产生重要影响。
多模态大模型是通向AGI的必经之路|行业洞察

3、多模态大模型落地应用方向

对于多模态大模型,我们也特别关注其具体的落地,团队目前在各种场景都已经做了一些相应探索。例如:与摄像头结合——类属于智慧城市;与无人机结合——可进行巡检工作;与传感器结合——做一些设备状态的诊断和预测等等。包括“具身智能”等也是在尝试的方向。
多模态大模型是通向AGI的必经之路|行业洞察
所以当建立一个多模态大模型之后,我们就可以做特别多的应用场景,也能看到更多希望。当然要想更好地实现落地,我认为最好的方式是应该把大模型放在一体机上,带上一些微调工具和一些prompt工具,这样不管任何场景或者满足任何集成商需求,只需要把模型微调适配一下即可;我们最终也希望能推出这样的产品。
多模态大模型是通向AGI的必经之路|行业洞察
【声明】内容源于网络
非凡产研
非凡产研是非凡资本旗下全球数智商业研究中心。非凡产研专注于商业场景下国内、出海及全球化企业服务生态领域的研究,团队成员来自知名研究咨询公司、私募基金和科技体等,是一支具有深入洞察、专业知识和丰富资源的分析师团队。
内容 1272
粉丝 1
非凡产研 非凡产研是非凡资本旗下全球数智商业研究中心。非凡产研专注于商业场景下国内、出海及全球化企业服务生态领域的研究,团队成员来自知名研究咨询公司、私募基金和科技体等,是一支具有深入洞察、专业知识和丰富资源的分析师团队。
总阅读231.8k
粉丝1
内容1.3k