计算机应用专家,中国科学院院士,清华大学教授,清华大学人工智能研究院名誉院长,长期从事人工智能、人工神经网络和遗传算法等理论研究,以及这些理论在模式识别、机器人和智能控制等领域的应用研究。
如何从大语言模型走向通用人工智能,这条路线可能带来哪些影响?
1月16日,中国科学院院士、清华大学人工智能研究院院长、清华大学计算机系教授张钹在“智谱AI”2024年度技术开放日上,带来了《从大语言模型到通用人工智能》的主题分享。
怎么来理解现在爆火的生成式的模型?
张钹院士表示,必须从生成式大模型具有的四个特征来分析它,这四个特征是“三大一缺点”。
就是强大的生成能力,强大的迁移或者推广能力以及强大的交互能力,最后一个大缺点,幻觉。
具体来说:
1.强大的生成能力:指的是语言模型能够在开放领域生成多样化、连贯且类似人类的文本。这种能力超出了人们的预期,被认为是模型达到一定规模后出现的“涌现”现象。
2.强大的迁移能力:模型能够在给定少量样本的情况下,将知识迁移到不同领域,完成新的任务。这种能力同样在模型规模达到一定程度后才会出现。
3.强大的交互能力:模型能够与人类进行自然语言对话,这在过去是难以实现的。这种对话不受领域限制,使得人机交互更加流畅。
4.幻觉:这是模型的一个主要缺点,指的是模型可能会生成看似合理但实际上并不真实或有意义的输出。
张钹院士解释了大语言模型如何通过三个关键技术实现这些能力:
巨大的人工神经网络:使用深度和宽度都非常大的网络结构,如GPT-3和GPT-4 Turbo,这些网络能够处理大量的文本数据。
巨大的训练文本:使用大量的人类知识文本进行训练,这些文本数据量达到了数十TB。
Next token prediction:通过自监督学习的方法,模型能够预测下一个词,从而生成连贯的文本。
通过这些技术,模型构建了一个连续的语义向量空间,使得输入的文本序列能够转换为向量,并在该空间中进行处理,最终生成输出文本。
当然,想要实现高质量的文本生成和人机对话,离不开预训练、推理和对齐。
这是向通用人工智能迈出的第一步,取得了两个重大突破:
能够生成人类水平的文本,"说人话"。
实现了人机自然语言流畅对话。在ChatGPT中,我们可以用纯自然语言与机器对话,这在过去是难以实现的,而且这种对话不受领域限制。
这两个突破将推动人工智能技术获得进一步发展。
迈向通用人工智能第二步工作,就是在GPT-4的基础上构造一个智能体,使其能够与数字世界交互。
为此必须实现两点:一是使其具有多模态处理能力,把感知能力加入进来。通过多模态生成,可以完成感知能力的补充,完成闭环。
二是增加其交互能力。过去第一步走的时候,主要用了语言模型跟人类交互的能力,而大模型还可以与环境尤其是数字环境进行交互。通过这两点的组合,可以实现第二步目标。也就是说机器可以与外部工具和环境结合,发挥问题求解能力。
它不仅可以回答问题,还可以帮助解决问题,解释和执行复杂指令,制定计划来达成预定目标。与数字环境结合后,它可以通过反馈学习,判断自己的行动正确或错误。
第三步发展非常重要,目前GPT-4最多只能与数字世界交互,通用人工智能最终必须使其能与物理世界交互。这就缺少了一个关键环节——机器人。要与世界沟通和采取行动,就需要机器人。因此,“具身智能”(Embodied AI)的提出很关键,它可以构建一个完整的智能体,既有感知能力,又有像人类一样的思考和行动能力。这将形成一个完整的智能体。
如果实现了这一步,就可能构建出一个拥有感知、思考和行动能力的通用人工智能体,实现从专用走向通用的突破。
这个大模型发展下去,对我们产业,对我们职业会产生什么影响?
张钹院士认为,大语言模型的发展必将对产业和职业产生深远影响。
一方面,它将提升效率和质量,对多数行业起到互补作用;另一方面,也会替代部分工作。但大语言模型本身存在的缺陷决定了它不可能完全取代人类。总体来看,大语言模型与人类还是互补的关系。而人工智能这样发展下去,最主要的一定会推动经济的发展。
为把握机遇,张钹院士呼吁要紧密结合科研、技术创新和产业发展,开发通用的人工智能软硬件,推动产业进步。尽管道路艰难,但大语言模型已经为通用人工智能开辟出一条道路,其影响还会持续显现。
大家好,这个会议主要围绕大模型,我想所有的听众呢,都是冲着大模型来的,因此我今天就讲大模型的内容。
讲三个问题。
一个我们如何从这个大语言模型走向通用人工智能,这条路应该怎么走,我们会走到什么地方?
第二个,这个大模型发展下去,对我们产业,对我们职业会产生什么影响?
最后,讲一点有关人工智能产业的一点思考。
大家知道,我们人工神经网络是1947年开始的,当时主要作为鉴别器(分类)使用,也想把它作为生成器来生成,结果遇到很大的困难。
这个问题到2014年干出来以后,才得到一定的解决,特别是2017年Transformer转换器提出来以后,就像打开这个闸门,生成式的人工智能迅猛地发展。
我们为什么要搞生成式的人工智能,大家常常引用Richard Feynman 说的一句话,“如果我们不能创造它,我们就不可能理解它。” (What I cannot create,I do not understanding.)
所以我们通过生成式的人工智能,就是要打开理解这个世界的大门。
我们怎么来理解生成式的模型?我们必须从生成式大模型具有的四个特征来分析它,这四个特征是“三大一缺点”。“三大”什么大呢?
就是强大的生成能力,强大的迁移或者推广能力以及强大的交互能力,最后一个大缺点,幻觉。我想从这个三点出发,我们才能够真正地认识大模型。

所谓的强大的生成能力,我们现在先说语言模型,就是强大的语言生成能力。这个强大主要体现在它能够在开领域生成多样性连贯的类似人类的文本。也就是说,它能够在开放的范围内,流畅地产生出多样化且逻辑自洽的语言表达。
这一点是大大出乎大家意料之外的,大模型没有达到一定的程度,不可能出现这个现象,我们目前还把这个现象说成是涌现。
第二个是迁移能力,就是只要给它少量样本,它就能将知识迁移到不同的领域,这也大大出乎了人们的意料。为什么只给它几个样本,它就能完成新的任务呢?这种能力也只有在模型达到一定规模后才会出现。
我们想一想,利用这两种能力发展出来的ChatGPT,它是通过预训练、推理和对齐这三个步骤实现的。那么它是如何做到这一点的呢?
主要是三个原因。
第一个原因,我们用了一个巨大的人工神经网络来完成这个任务。这个巨大的神经网络,我们把它叫做转换器。这个巨大大到什么程度呢?
四个档。一个非常之深,深度达到了96层。第二个非常之宽,GPT-3 宽度达到了2048个tokens。现在GPT-4 Turbo,达到128000个tokens。换句话讲,300多页的文本可以同时输入,这是它的宽度。
GPT3.5 的规模达到了1750亿个参数,它的硬件需要285000个CPU,1万个GPU来完成,这是我们利用的一个技术,巨大的神经网络。
第二个技术就是巨大的训练文本,我这里特别讲的用Text不用数据,美国人最早用的是用巨大的数据,现在美国人也改口了,把它说成是巨大的文本数据,Text Data。
请大家注意,我这里讲的text肯定不是指这个数据,因为text大量描述的是人类的知识,那么用得多少呢?这个大家知道了,现在已经达到了45TB,Google已经达到50TB是吧。
第三个使用的是Next token prediction,自监督学习。
靠这三项技术,我们做到了刚才讲的三大能力。怎么做到的?
实际上,它构造了一个连续向量的语义空间,这个连续向量的语义空间怎么构造呢?就是用了LLM加上AI alignment来构造,这样就使得我们用一串的10串的输入,变成token,最后变成向量,在连续向量空间进行处理,又输出了一大堆词串。
正是借助这三项技术,我们实现了前面提到的三大语言生成能力。
具体来说,是通过LLM(大语言模型)结合AI alignment构造了一个连续的语义向量空间。这样就使得我们用1串,10串的输入变成token,最后变成向量,在连续向量空间进行处理,又输出了一大堆词串。
如果大家了解LLM(大语言模型),就会知道它通过预训练生成了K和V,这是它的记忆单元。然后在推理阶段,我们将问题Q输入模型,Q与K、V进行计算,输出对下一个词的预测。这就是LLM的整个工作流程。这种过程完全改变了我们处理语言的方式,使机器能够像人类一样进行思考。
当然,还需要最后一步对齐技术。经过对齐后,可以大幅降低错误率。因为LLM本身只能生成类人语言,不能保证正确性。只有通过对齐,才能确保生成内容的正确性。
这是我们迈出的第一步,取得了两个重大突破:
能够生成人类水平的文本,"说人话"。
实现了人机自然语言流畅对话。在ChatGPT中,我们可以用纯自然语言与机器对话,这在过去是难以实现的,而且这种对话不受领域限制。

·END·
版权申明:本文来源 人工智能学家,版权归原创者所有。除非无法确认,我们都会标明作者及出处,如有侵权烦请告知,我们会立即删除并表示歉意。谢谢!


