文章来源《元宇宙十大技术》
当前,AI 已成为新一轮科技革命和产业变革的重要驱动力量。
在元宇宙的世界里,AI 也将扮演重要角色,为元宇宙赋予创新的内容和智能的“大脑”。
其中,AI 辅助的内容生产和完全的 AI 内容生产,弥补了仅凭纯人工生产内容的低效、不够丰富的短板,满足了元宇宙迅猛增长的内容需求(具体我们还会在本书内容创作技术那一章详细分析);
而 AI 对元宇宙内的数字人角色赋智,使得不论是虚拟人还是托管人(物理人的数字化身),它们的行为控制都不是一段简单的自动化游戏脚本,而是在 AI 的加持下逐步获得了接近甚至超出物理人的行为能力。
对于元宇宙而言,它的构建和发展就是虚拟世界和物理世界之间的持续互动过程,这个过程可以包括三个方面:由实化虚、虚实交融、由虚返实。
而对于每一个方面,AI 都是最关键的驱动力量之一:
在“由实化虚”过程中,AI 助力元宇宙生成更加丰富、更加接近物理世界的内容;
在“虚实交融”过程中,AI 使得虚拟人、托管人的思想举止更加贴合真实人类;
在“由虚返实”过程中,AI 帮助那些在元宇宙中汇总凝练的经验回馈到物理世界,使得物理世界更加美好。
第一节 由实化虚:AI 赋能元宇宙内容生成
“由实化虚”是指将人们所处的物理世界中的现实情况向元宇宙映射的过程,它使得元宇宙中的内容不断丰富并且越来越接近真实的场景。
无论元宇宙中的内容是凭空创造的还是从现实中复制而来的,AI 都能够发挥巨大的辅助作用,大幅提升内容的创作效率,最典型的 AI 技术就是 GAN 和 CV(计算机视觉)中的 2D 转 3D 技术,比如 GANverse3D。
GAN 是用于图像生成的技术,在元宇宙的虚拟世界建立时,它既可以被用于环境的物品或场景的生成,又可以被用于数字人的形象合成。
通过 GANverse3D,即使没有 3D 建模方面的知识,建筑师、创作者、游戏开发人员和设计师也能轻松地将平面设计转换成立体模型,满足元宇宙内的虚拟场景 3D 化的需求。
一、GAN 助力元宇宙内容创造
GAN 属于 AI 模型中的生成式模型,它能够自动化生成内容或进行内容增强,使得 AIGC 成为元宇宙时代的重要内容来源。
GAN 分为生成模型(Generative Model)和判别模型(Discriminative Model)两种。
其中,生成模型的任务是生成看起来自然真实、和原始数据相似的实例;
判别模型的任务是判断给定的实例看上去像自然真实的还是更像人为制造的(真实实例来源于数据集,人为制造的实例来源于生成模型)。
在实际工作中,这两种模型就像武林高手左右互搏,即生成器(Generator)试图欺骗判别器(Discriminator),而判别器则要努力不被生成器所欺骗。在这种情形下,经过交替的优化训练,两种模型都能得到提升。
对于元宇宙的设计者而言,最终需要的还是呈现效果被提升到很高水平的生成模型,因为这个模型所生成的数字化内容能够达到真假难辨的地步。
以生成元宇宙中的图片为例。
GAN 在最初始会建立生成器 G 和判别器 D 两个网络。
G 作为负责生成图片的网络,会接收一个随机噪声 z,并通过这个噪声生成图片,记作 G(z);
D 作为判别网络,负责判别一张图片是不是“真实的”,它会针对输入的图片 x 输出 D(x),即 x 为真实图片的概率。
如果 D(x)为 1,就说明图片 x 是真实图片;如果 D(x)为 0,就说明图片 x 不是真实图片。
GAN 理论上对 G 和 D 的结构没有强制要求,只需要它们能够拟合相应生成和判别的函数即可。
但是在应用中,G 和 D 通常都采用深度神经网络实现,应用 GAN 的重点在于良好的训练方法,否则可能输出不理想。
G 和 D 构成了一个动态的“博弈过程”,在最后的博弈结果中,在理想的状态下,G 可以生成足以“以假乱真”的图片 G(z),而此时对于 D 则意味着它难以判定 G 生成的图片究竟是否真实,因此 D[G(z)]=1。
截至此时,GAN 的目的得以达成,它训练出了一个生成式的模型 G,这个模型可以用来生成图片。
也许人们会担心这里的 G 和 D 的博弈过程是能够终止的吗?GAN 的训练过程一定可以得到一个理想的 G 吗?
为此,GAN 的提出者古德费洛(Goodfellow)证明了博弈过程中算法具有收敛性,同时在模型收敛时生成数据具有和真实数据相同的分布,从而保证了模型效果,这夯实了 GAN 的理论基础,使其应用具有充分的可行性和有效性。
当前,基于 GAN 的元宇宙中数字人的生成已经有了很多案例。
泰罗·卡拉斯(Tero Karras)等人利用 GAN 网络制作了效果非常逼真的人脸照片,并尝试以名人的脸作为输入,导致生成的照片具有名人的脸部特征,这些特征看上去让人感觉很熟悉却并不认识,这就相当于对人脸做了一次风格转换。
这个尝试在元宇宙中拥有很多应用场景,例如,
对于接入元宇宙的用户,可以用 GAN 以其真实形象为基础进而扩展出多个保留其本人特点的数字人形象。
GAN 还可以为数字人生成表情和动作。
Liqian Ma 等人论述了基于 GAN 生成人体模型新体态的案例。
另外,GAN 还也可以被用于语音风格的转换,这使得用户的音色等特征都可以在元宇宙的虚拟世界中得到保留。
除了数字人的生成,GAN 同样可用于元宇宙中的物品和场景的生成,还产生了很多有趣的使用方式,比较典型的是基于 GAN 对同一场景进行日夜时间的转换。
GAN 甚至可以将文字描述转化成实际的物品和场景,例如:Han Zhang 等人研究了如何运用 StackGAN 将对简单物体(如花、鸟)的文字描述转化为现实图片的方法,Ting-Chun Wang 等人研究了根据语义图像或素描,使用条件性 GAN 生成现实图片的方法。
另外,GAN 还支持将不同的场景组合成新的场景。例如 Huikai Wu 等人展示了 GAN 在混合照片特别是混合风景及大型物品照片中的应用。
依托该能力,GAN 可以组合现实场景,构造虚拟世界场景,甚至根据用户需求在元宇宙的虚拟场景上构建组合的虚拟场景。
近年来,以 GAN 为代表的生成模型技术在 AI 领域取得了显著进步。
例如,GAN 可被用在元宇宙中对现实世界进行模拟,创造出逼真的虚拟世界场景,具有广阔的应用前景。
论文《级联优化网络生成逼真图像》(Photographic Image Synthesis with Cascaded Refinement Networks)研究了采用级联优化网络生成照片,其成果被康奈尔大学计算机系的诺亚·斯纳利(Noah Snavely)副教授看到,他认为这是他见过的最大、最详细的人工场景。
GAN 可以让人们描述一个世界,然后让 AI 在虚拟现实中将其打造出来,甚至“仅凭大声描述就能像魔法一样召唤出逼真的场景”。
而这正是 AI 技术在元宇宙内容创造中可以发挥的重大作用。
需要特别注意的是,GAN 也是一把双刃剑,例如基于 GAN 的深度伪造(Deep Fake)可以轻松实现 AI 换脸、语音模拟、人脸合成、视频生成等工作。
这些技术的出现使得篡改或生成高度逼真且难以甄别的音视频内容成为可能,并最终导致人们难以明辨真伪,为违法犯罪提供了温床。
为了避免 GAN 等生成模型技术被滥用,当前已有一系列规范被提出并对其进行管控,相关的详细论述可以参见本书第十二章治理技术。
二、CV 加速 3D 视觉内容生成
CV 是 AI 技术领域的热点,也是元宇宙的基石技术之一。
这主要是因为“实现视觉等感知上的真实性”是元宇宙最先要解决的几个核心问题之一,而 CV 就是追求视觉感知上的真实性和精确性,甚至其终极目标不只是达到而是要超越人类的视觉水平。
因此,求真务实的 CV 可以让元宇宙更早到来。
CV 在当前现实生活中的很多应用,例如图像检测、识别、分割等,在元宇宙中都会发挥重要作用。而在“由实化虚”的过程中,基于 CV 的 2D 向 3D 转换是需要引起业界关注的技术。
3D 视觉是人类的本能,虚拟场景的 3D 化是打造元宇宙内容的基本需求。
和当前被广泛使用的 2D 数据相比较,3D 数据具有更丰富的尺度和几何信息,但同时它的可用性相对较低,而且采集需要依托非常专业的设备和环境,导致成本高昂。
为此,近年来 AI 领域提出了很多基于深度学习的 CV 方法,它们可以不依赖 3D 传感器即可从可用的 2D 数据中合成 3D 数据。
在 3D 人脸重建方面,当前比较成熟的算法有沃克·布朗茨(Volker Blanz)和托马斯·维特尔(Thomas Vetter)提出的 3DMM(三维形变模型),它可以从几何和纹理的角度捕捉到面部的变化,而格瑞西(Gerig)等人的研究工作进一步将表情作为单独的空间对该模型做了扩展并取得更好的效果。
在 3D 人体重建方面,有很多轻量级的算法被提出,它们可以只通过几幅 RGB 图像就恢复出人体的形状和位姿(航天科学技术专有名词)。
这些算法有的采用了基于体积表示的方法,有的采用了基于模板或参数表示的算法,还有的在人体模型重建基础上重建出了衣服。
其中,基于参数的算法应用较为广泛,它主要是把问题转化成不同的统计模型,进而将三维人体模型估计变为了模型参数估计,典型的模型有 SCAPE(形体还原及人物动画)和 SMPL(蒙皮多人线性模型)等。
3D 场景的重建与人脸、人体的 3D 重建会稍有不同。
场景的三维化,除了单独的物体重建,更难的问题在于场景解析。
这主要是因为场景中出现的遮挡等因素会造成三维场景的不确定性,需要设计者进一步对场景的实际布局进行估计。
该问题的解决方案涉及三维物体的检测和识别、位姿估计和三维重建等,业界典型的研究成果包括哈米德·伊萨迪尼亚(Hamid Izadinia)等人提出的自动场景生成系统,可以根据输入的单张室内场景图片以及室内设施的 CAD(计算机辅助设计)数据,重建出精确的室内 3D 场景,还可以根据输入的 CAD 数据库加入新的设施和家具,生成不同的新场景;
S.Tulsiani 等人为了从 2D 图片重建 3D 室内场景,利用基于卷积神经网络模型估算各类室内物体的形状、位姿等信息,进而用结构分解的方法获得整个室内场景的 3D 结构。
当前,基于 AI 的 3D 视觉合成领域的成功案例来自 Facebook。
它使用 3D 照片卷积神经网络,能够将几乎任何标准的 2D 照片转换为 3D 照片。
为了实现这一目的,Facebook 重点通过训练卷积神经网络,在数百万的 3D 图像中学习其附带的图像深度。
当有 2D 图像被输入时,系统会自动进行深度估计,进而实现 2D 到 3D 的实时转换,整个过程仅需花费几秒钟。
同时,3D 照片卷积神经网络还融合了纹理修补能力,可以对输入的 2D 图像进行几何捕捉,以使得它在被转换为 3D 图像时更加生动逼真。
除了上文提到的 2D 素材向 3D 模型的加速转换之外,比人脸、人体的 3D 重建更为复杂的实时捕捉人体动作表情并投射到元宇宙中进行动态内容呈现的技术也已经被 AI 有效解决。
例如,卡内基梅隆大学发起的开源项目 OpenPose,就是业界首个基于深度学习的实时多人二维姿态估计应用。
OpenPose 基于卷积神经网络和监督学习并以 Caffe 作为框架进行学习,以 2D 图像为基础,只需利用廉价的普通摄像头就可以实现多人的、实时的、鲁棒性很好的人体骨骼关节点、手部关键点乃至人脸关键点的提取与检测,从而得到人体姿态、手部动作乃至面部表情的实时信息,进而将其作为元宇宙内人物角色的输入。
第二节 虚实交融:AI 弥补数字人和物理人之间的鸿沟
“虚实交融”是指物理人进入元宇宙后与元宇宙中的虚拟世界更加真实地互动。
元宇宙体验真实性的提升,并不能靠几行控制代码即可一蹴而就,它需要参照物理人和物理世界对虚拟世界内智能体的行为进行训练。
虚拟世界内的智能体可以统称为数字人,根据不同的控制来源可以将其分为三类:
第一类是化身人,它是由真实世界中的物理人实时操作的角色;
第二类是虚拟人,它是仅仅在元宇宙中诞生和存活的数字人,类似游戏中的 NPC;
第三类是托管人,它是在物理人离开元宇宙后仍保持其角色在线的数字人,此时其行为需要由元宇宙系统来控制。
显然,从控制上来说,化身人的行为控制最为简单,只需要导入物理人的操作即可,而在利用了前文提及的人体、动作、表情的内容补充技术之后,这种导入更加自然、简单;
而虚拟人和托管人的行为控制则相对复杂,它们的智能化能力需要通过 AI 的训练来实现,训练中使用的基础数据来自物理人在物理世界的行为,训练中常用的技术则是 AI 领域的强化学习;
同时,如果将物理人的行为记录作为训练数据,会产生数据隐私保护的需求,支持隐私计算的联邦学习成为关键。
在虚实交融的过程中,对于更为复杂的多智能体的训练,还需要引入前文提及的 GAN 网络、博弈论等,对强化学习进行辅助。
一、强化学习:让虚拟人更像物理人
强化学习是机器学习家族中的分支,它与深度学习的融合促使 AI 领域取得新的突破,也使得它自身被进一步运用,比如 AlphaStar 在游戏《星际争霸 2》中大比分击败人类顶级职业玩家就是因为强化学习在幕后作为推手。
同时,强化学习也是使虚拟人在元宇宙中的行为逐渐理性,从而能够和物理人共同推进元宇宙运行。
1强化学习基本理论
众所周知,常见的机器学习的训练过程包括监督学习和非监督学习两种模式:
监督学习是通过有标签的数据学习规则,适用于解决回归、分类等问题;
非监督学习则是在无标签的数据中找到其中的隐藏模式。
强化学习与监督学习和非监督学习存在不同,虽然它并不需要采用特殊的模型或者算法,但是它的特殊之处在于它是一种通过与运行环境交互的目标导向学习方法。
在强化学习的过程中,智能体以“试错”的方式进行学习,通过与环境进行交互获得的奖赏来指导行为,其目标是使智能体获得最大的奖赏。
强化学习过程中由环境提供的强化信号是对产生动作的好坏做一种评价,而不是告诉强化学习系统如何去产生正确的动作。
因为外部环境提供的信息很少,所以强化学习系统必须靠自身的经历进行学习。
通过这种方式,强化学习系统在“行动—评价”的环境中获得知识,改进行动方案以适应环境。
强化学习是从动物学习、参数扰动自适应控制等理论发展而来的,其基本原理是:
如果智能体的某个行为策略导致环境正的奖赏(强化信号),那么智能体以后产生这个行为策略的趋势便会加强,最终智能体的目标是在每个离散状态发现最优策略以使期望的累积奖赏最大。
每一个智能体由两个神经网络模块组成,即行动网络和评估网络。
行动网络是根据当前的状态而决定下一个时刻施加到环境上的最好动作。
对于行动网络,强化学习算法允许它的输出结点进行随机搜索,有了来自评估网络的内部强化信号后,行动网络的输出结点即可有效地完成随机搜索并且大大地提高选择好的动作的可能性,同时可以在线训练整个行动网络。
同时,强化学习引入一个辅助网络来为环境建模,评估网络根据当前的状态和模拟环境来预测智能体行动后所产生的外部强化信号,可单步和多步预报当前由行动网络施加到环境上的动作强化信号,可以提前向动作网络提供有关候选动作的强化信号,以及更多的奖惩信息(内部强化信号),以减少不确定性并提高学习速度。
强化学习的网络运算主要分为前向信号计算和遗传强化计算两个部分。
其中,在前向信号计算过程中,评估网络采用时序差分预测方法,由评估网络对环境建模并进行外部强化信号的多步预测,进而由评估网络为行动网络提供更有效的内部强化信号,使行动网络产生更恰当的行动;
内部强化信号使行动网络、评估网络在每一步都可以进行学习,而不必等待外部强化信号的到来,从而大大地加速了两个网络的学习。
当前,强化学习除了在人机对抗的游戏领域大放异彩之外,在机器人平衡控制、对话策略学习、用户兴趣发现等领域也得到应用并取得良好成效。
2.元宇宙虚拟人的智能类别
在强化学习的加持下,元宇宙中的虚拟人的能力可以得到极大的提升,为元宇宙用户提供等同甚至超出真实世界的交互体验。
元宇宙中虚拟人的行为无疑是需要智能控制的,但这种智能既不是来自游戏里的脚本 AI,也不是类似 AlphaStar 那种基于神经网络驱动的游戏 AI。
这主要是因为元宇宙并不像一场游戏那么简单,它是长期持续运行并且内容不断迭代更新的,相应的虚拟人的运行智能也必须要持续进化。
总体而言,元宇宙中的虚拟人的智能可以分为单主体模拟类智能、单主体目标性智能和多主体目标性智能三个类别。
(1)单主体模拟类智能一方面是指对物理人行为的持续模拟,元宇宙玩家或者用户在虚拟世界中的数字人载体不可能永远由物理人直接控制,而且如果数字人希望在元宇宙中持续发挥影响也就不能下线休眠了事。
因此,数字人应该按照物理人的行事历史记录提炼出相应的行事规则和风格,以托管人的形式持续地在元宇宙中存在和发挥作用;
同时,单体模拟类智能的另一方面事关虚拟人的自主行为,因为元宇宙中除了与物理人相对应的化身人之外,一定还存在大量无主的虚拟人,这些虚拟人的行为不应该是无序自发的,它们既需要满足元宇宙中所映射的人类社会的行为准则,不能和化身人、托管人的行为格格不入,同时又应该具有各自的特色,不能够千篇一律。
因此虚拟人的自觉行为不能仅依靠单一的规则(例如机器人三定律)设计完成,也不能够像化身人那样只能依赖于对某个物理人行为的单纯模仿,它需要对多个模仿目标的行为进行综合。
(2)单主体目标性智能更像是游戏类智能,即针对某个目标的虚拟人或者托管人,能够根据目标的历史数据去自主决策,采取合适的行为达成目标。
类似 AlphaZero 需要找出一系列制胜的棋路,这种智能要输出一条行为路径,其中就包括了单体的目标智能和群体的目标智能,分别对应控制单个虚拟人和虚拟人群体。
(3)多主体目标性智能是指在多个数字人行为主体(可能同时包括化身人、虚拟人、托管人)互动的情况下,虚拟人、托管人的行为都应该体现出针对完成各自目标的智能行为特征。
如上所述的三类虚拟人的智能水平逐渐升高,仅凭强化学习还不足以满足元宇宙的需求。
GAN 网络以及博弈论的引入,将能够有效辅助强化学习实现不同类别的虚拟人智能。
3.强化学习+GAN:培养模拟类智能
强化学习是一种训练方式,理论上可以使用任何一种网络模型。
在模拟类智能的输入输出中,输入是元宇宙中数字人面临的各种外界环境输入,输出则是数字人的一系列应对动作。从中可以看出,不论是输入还是输出,都是高维的数据。
如前文所述,处理这种多维数据到高维数据的转换,GAN 是最合适的模型之一。
但是,在当前的场景中,GAN 的任务不再是生成真假难辨的图像,而是要生成和物理人相似的虚拟人动作。
一旦强化学习和 GAN 结合的思路确定,后续的实现就非常直观了。
首先学习系统对物理人在元宇宙要展现的行为进行录制,包括传输给物理人的环境信息及其相应的反应;
然后将这些录制好的数据作为 GAN 的训练数据;
待初步训练好 GAN,就可以用对应的模型指导虚拟人的行动。不过需要注意的是,这种训练更加适用于虚拟人行为的离线训练,而在虚拟人进入到元宇宙后,这种离线大批量训练的方式就不够及时了。
为此,强化学习的在线训练能力将发挥重要作用,虚拟人和物理人的行为被定期采样作对比,得到的相似性被打分并作为对虚拟人的奖励,以此得到强化学习训练中的动作价值函数,再进一步对 GAN 模型进行优化,即可逐渐得到吻合物理人行为的虚拟人行为决策模型。
4.强化学习+博弈论:培养目标类智能
单主体的目标类智能培养相对直观,学习系统只需要事先定义好目标奖励和策略集合,就可以利用在线强化学习的方法训练单主体的行为模型。
与之相比,多主体系统如何使每个主体作为独立的智能体,通过与环境进行交互获取奖励的方式学习和改善自己的策略并最终获得该环境下的最优策略,具有非常高的难度。
这主要是因为,在单智能体强化学习过程中,智能体所在的环境稳定不变,因此处于固定环境的智能体试图通过奖励/惩罚机制学习到最优策略,这已经被证明是收敛的;
而在多智能体强化学习过程中,智能体所处的环境是复杂的、动态的,因此给学习过程带来很大的困难。
例如,假设多个智能体同时学习到了最优策略,但此时每个智能体的决策都会影响到其他智能体的表现,因此智能体和智能体之间可能会发生冲突,最终造成寻找最优决策的过程很难收敛。
为了解决上述在多智能体系统中存在的智能体之间会影响彼此的合作与竞争的问题,博弈论的理念被引入并与强化学习相结合形成了行之有效的方法。
智能体之间可能是竞争关系,也可能是合作关系,还可能是既合作又竞争的关系,这些关系的存在使得多智能体强化学习变得极其复杂。
在博弈论被引入后,建模过程会轻松一些,这是因为每个智能体获得的奖励会与多智能体系统的联结动作相关,而在这种情况下,寻找群体最优策略的问题就变成了博弈论中寻找平衡点的问题。
通过这样把强化学习和博弈论联系起来,人们可以利用博弈论的方法来求解强化学习问题。
例如,如果在矩阵博弈中多个智能体的策略达到了纳什平衡,就可以被视作找到了多智能体强化学习的最优策略。
以 AlphaStar 为例。
《星际争霸》系列作为一个多方参与的大型游戏,具有环境多变的特点,很难得到一个单一化的最佳方案。
在有人胜出前,游戏永远是在博弈之中,因此 AlphaStar 就要对当下已有的策略进行学习,并选择最好的那个。
AlphaStar 使用的双 Oracle 算法就是把游戏的目标定义为寻找游戏的纳什均衡,它使用了深度神经网络进行函数逼近,迭代计算当前的收益矩阵,并在每个时间点都会计算出符合纳什均衡的回报,并得到最优策略,然后添加新的策略来扩展策略集,重复上述过程直至收敛。
“博弈机器学习”在当前成为 AI 领域的热点之一,率先提出这一概念的微软亚洲研究院刘铁岩博士曾说,博弈论的引入让智能体在过去与环境打交道的基础上又学会了如何与其他智能体打交道以及如何与人打交道。
元宇宙的环境复杂度远远超出过去训练一个机器人或者一个游戏智能体的场景的复杂度,因此博弈论和强化学习的结合才能让元宇宙中的虚拟人群体能够更像真实社会的人类一样从事各项活动。
二、联邦学习:数字人的隐私保护
物理人的行为是用于训练数字人行为模型的最重要的数据。物理人产生这类数据后,其训练过程会在元宇宙的后端完成。
考虑元宇宙的运营方具有多元化的可能性,向元宇宙上传物理人数据时,并不能够确保数据隐私得到很好的保护。
因此,物理人的数据隐私如何得到有效的保护是元宇宙发展必须解决的一个重要问题,它直接影响到用户对元宇宙的信任和体验。
隐私计算就是一类能够有效处理上述问题的技术方案,它能够确保在处理和分析计算数据的过程中保持数据的不透明、不泄露、无法被计算方以及其他非授权方获取。
隐私保护计算的目标是在完成计算任务的基础上,实现数据计算过程和数据计算结果的隐私保护。
隐私计算是一个技术体系,包括安全多方计算、联邦学习等关键技术,其中联邦学习属于 AI 技术的范畴,它在元宇宙中数字人的隐私保护中具有非常重要的地位。
联邦学习的本质是分布式机器学习框架,它以一个中央服务器为中心节点,通过与多个参与训练的本地服务器(以下简称“参与方”)交换网络信息来实现 AI 模型的更新迭代。
在联邦学习的架构中,两个或两个以上的联邦学习参与方会协作构建一个共享的机器学习模型,每一个参与方都拥有若干能够用来训练模型的训练数据。
联邦学习的运行过程中,中央服务器将首先生成一个通用的神经网络模型,然后各个参与方将这个通用模型下载至本地,并利用本地数据训练模型将训练后的模型所更新的内容上传至中央服务器,中央服务器进而将多个参与方的更新内容进行融合均分,对初始通用模型进行优化,进而再由各个参与方下载更新后的通用模型进行上述处理。
这个过程将不断重复,直至达到某一个既定的标准。
在联邦学习模型的训练过程中,每一个参与方拥有的数据都不会离开该参与方,即数据不离开数据拥有者。
联邦学习模型相关的信息能够以加密方式在各方之间进行传输和交换,并且需要保证任何一个参与方都不能推测出其他各方的原始数据。
相对于集中式学习,联邦学习能够更好地保护参与方的数据私密性。
在此前以云计算形式为代表的集中式学习过程中,来自不同数据方的数据被上传至计算方,这使得数据很容易被用于其他目的或者是未经用户知情同意便传达给第三方;
而在联邦学习的过程中,每一个参与方都使用自己的本地数据来训练机器学习模型,只是将模型的权重更新和梯度等信息与其他参与方共享,防止了数据外泄。
不过需要注意的是,如果数据结构是已知的,那么梯度信息也有可能也会被利用,从而导致关于训练数据的额外信息被泄露。
因此,中间信息等数据也需要被保护,这也就是为什么隐私计算的体系中还需要有安全多方计算、同态加密技术,因为它们可以被用来保护中间计算结果。
在元宇宙的场景下,如果联邦学习被用来解决物理人隐私保护的问题,那么接入元宇宙中的每个物理人无疑就是联邦学习系统的数据方,同时他也可能利用终端设备进行数据处理,从而成为联邦学习的计算方。
虽然理论上任何元宇宙的接入设备都可以承载分布式机器学习训练,但是终端设备的计算性能与云计算相比一定会有较大差距。
因此,标准的联邦学习中的多方计算方案并不能够被直接应用到元宇宙个人计算参与者的场景中,它需要做一些改变和优化以实现在保护隐私的前提下提升计算效率,可行的方案如下:
(1)模型改造。
因为同态加密并不支持任意形式的计算,因此在全同态加密情况下,需要对模型计算式近似转换为加法和乘法。
例如,通过泰勒展开公式将运算转化为多项式相加的形式。
在模型经过如此改造后,物理人接入元宇宙后遇到的环境输入和行为输出,都可以在接入设备上被提取记录,并被作为行为模型的输入输出在加密后发送给元宇宙行为模型训练方;
训练方在同态友好改造后的模型上用密文进行迭代训练,最终得到一个适用于加密数据的行为模型,并使得该模型在被用于推理时,其输入输出的加密解密仍由用户接入设备完成。
这种情况下,用户侧设备需要承担的算力任务就是输入输出的加密和解密,虽然具有一定的计算量,但是尚在可承受范围之内。
这种方式非常适用于没有安全第三方的情况应用。
(2)运营方监控。
考虑到用户在接入元宇宙时,通常会受到来自元宇宙运营方的行为监控,如果在信任运营方数据隐私保护承诺的前提下,运营方作为公正第三方,可以完全消除接入设备的算力负担,更大的优点是模型不需要做同态加密友好化改造。
对于任意深度模型,面向输入的第一层特征提取层,以及负责输出的输出层,这两层由公正第三方负责计算和更新,中间的模型主干部分由模型训练方负责,这相当于主干模型训练方和输入输出层训练方采用了模型分布的训练方法,不过这种方案在训练中需要两者密集通信,可能会带来时延的影响。
其好处是模型自由,用户客户端解负。
在实际应用中,可以根据具体场景选择方案。
第三节 由虚返实:AI 让元宇宙梦想照进现实
物理人进入元宇宙,在元宇宙中的行为会对元宇宙的运行产生影响。
相应地,元宇宙中发生的一切同样可以反作用于现实世界。
它所产生的影响体现在三个方面:
第一个方面是元宇宙结合数字孪生的提升效应;
第二个方面是在元宇宙这个最佳的虚拟测试环境中,现实世界自动设备的智能训练被更好地试炼;
第三个方面则是超越了元宇宙对现实世界的智能反馈,提升到智慧的层次。
其中,第三个方面的影响带来的意义尤其深远,在以知识图谱技术为基础的知识发现技术的支持下,AI 可以从元宇宙的运行中学习和提取现实世界相关的知识经验。
一、元宇宙结合数字孪生后的提升效应
元宇宙把人和数字孪生的内容融合在一起。
不论是工业领域,还是城市治理,在加入了人、社会等复杂变量之后,会导致随机性、突变性呈指数级放大,这会给试图发现规律和预测未来的数学模型带来无法承受的挑战。
当前还无法在数字系统中模仿人脑对于复杂系统的认知和判断能力,这就需要在处理复杂系统问题时,运用数字技术的连接能力,让人与数字系统协同解决问题,同时发挥二者的优势。
元宇宙就是这样一个平台。
在元宇宙中,机器智能和人类智能将协同工作、相互支持、平行执行。
不论是波音公司在虚拟空间工作系统中创建和模拟飞机的三维计算机图形模型,还是数字化转型的城市系统通过与人的连接让民众以多种方式参与到城市运行的决策过程,都是元宇宙虚拟了人与环境的孪生系统后,反馈现实的表现。
二、元宇宙为 AI 提供最佳试炼场
元宇宙在数字空间中建设了完整的“人+物”系统,可以模拟和仿真各种物理真实场景对应的虚拟测试环境,这为现实世界中诸如机器人、自动驾驶等智能化设备及算法的训练和提升提供了最好的平台。
以自动驾驶为例,在元宇宙虚拟空间中开展的自动驾驶测试能够有效降低自动驾驶测试的成本,进而改善自动驾驶最为核心的安全问题。
兰德智库早在 2016 年就指出为了确保安全性,一套自动驾驶系统至少需要测试 110 亿英里(约 180 亿千米)才能达到量产应用条件,而这个测试距离相当于绕地球 44 万圈。
无论是从测试成本考虑,还是从时间成本考虑,现实生活中的 110 亿英里测试数据都是不可能完成的任务,即便自动驾驶企业可以通过增加测试车辆积累里程。
所以这其实极大地影响了自动驾驶技术的安全落地和规模应用。
但在元宇宙中进行自动驾驶技术的测试,将会有效地降低成本,甚至能够超提供越现实世界的测试能力,主要是因为:
(1)元宇宙中的测试不需要实体化的车辆,这使得用于测试的车辆成本得以降低,特别是在当前以激光雷达为代表的数据感知设备价格较高的背景下,物理设备的节省有助于测试车辆规模的扩大;
(2)元宇宙中的测试场景更加丰富,也许自动驾驶的测试看上去会像一场赛车游戏,但是元宇宙提供的车、路、人测试环境的真实性和复杂度会远远超出游戏的设计,特别是一些事关人身安全的场景可以反复重现,这是物理世界的测试很难做到的;
(3)元宇宙中开展的测试可以加快仿真时间的流速,这相当于为自动驾驶测试提供了最强的刷里程外挂;
(4)元宇宙是数字化的,这使得与测试相关的数据采集、汇总和分析都将更加高效。
元宇宙作为试炼场,除了在技术层面能够帮助自动驾驶等 AI 技术的提升,在道德伦理方面也能够做更多的探索。
出于安全考虑,当前对自动驾驶上路的要求非常严格,这限制了自动驾驶技术的实地评测。
而在元宇宙中,自动驾驶企业只需要专注研发技术,不用过于担心自动驾驶测试带来的生命安全以及随之而来的一些社会问题;
同时,在元宇宙中探索和确立的一些规则和约束,也许可以输出和应用到现实世界中。
三、元宇宙新生智慧反哺现实
元宇宙对现实的影响主要体现为从智能的层次到智慧的层次的跃升。
元宇宙从物理人的行为中学习智能,反之,物理人也能从元宇宙中汲取智慧。
站在元宇宙的视角,人们能够观察到的并不仅仅是某一个特定子系统的模拟运行状况,而是涵盖了源自人类社会真实映射的整个元宇宙的演变,并进而获取关于人类社会运行发展的新知识。
对于社会学者来说,元宇宙远比真实的人类社会更适合去了解和分析人类社会,主要有两方面原因:
一方面是元宇宙中的关于社会的所有信息都是天生数字化的,更容易被收集和整理;
另一方面是通过虚拟人的加入,更多的社会学试验可以更便捷地开展。
人们从元宇宙中得到的信息将是海量的、复杂的,仅凭人工是没有能力可以对其进行分析和处理的,这就需要 AI 技术作为辅助,最典型的就是知识发现技术。
AI 领域的知识发现技术可以帮助人类从元宇宙中汲取智慧。在谈及知识发现之前,首先需要说清楚如何来表示知识。
语义网络(Semantic Networks)是最早的知识表示方法,它是一种用图来表示知识的结构化方式。
在一个语义网络中,信息被表达为一组结点,结点通过一组带标记的有向直线彼此相连,用于表示结点间的关系。
随着语义网络技术的提出,早在 1998 年,业界就出现了以其为基础的语义网(The Semantic Web),语义网可以实现互联网从超文本链接到语义链接的转变。
在互联网诞生之初,网络上的内容只是人类可读,而计算机无法理解和处理。
语义网的出现则使得网络上的数据变得能够机器可读并理解其含义。
2012 年,谷歌发布了其基于知识图谱的搜索引擎产品。
所谓图谱,就是用图的形式来表示某种事物的关系结构。
因此,知识图谱就是表示知识关系结构的图,它由代表知识的节点和代表知识之间关系的连线组成。
知识图谱本质上是一种大规模的语义网络,包含概念、实体、属性,以及概念、实体之间的各种语义关系。
其中,概念是有层级的,概念和概念之间、概念和实体之间以及实体和实体之间都存在语义关系。
与传统的语义网络相比,知识图谱最主要的提升在于其规模性。
知识图谱是大数据时代的产物,可以支撑庞大的实体、关系数量,而且可以包含非常丰富的语义。
构建知识图谱的本质就是把知识从不同的数据源中抽取出来,其间需要借助大数据、AI 技术来进行实体识别、关系抽取等操作。
以文本数据的处理为例,自然语言处理等 AI 技术可以将文本内容转化为结构化信息,与之相关的自然语言处理技术包括但不限于
实体命名识别(Name Entity Recognition)、
关系抽取(Relation Extraction)、
实体统一(Entity Resolution)、
指代消解(Coreference Resolution),
等等。
利用这些技术,人们就可以将当前信息中的蕴含的实体关系知识提取出来作为知识图谱的组成部分。
经由上述操作获得的知识还比较初级,通常被称作是已知事实或者是表面知识。
但在这些知识进入知识图谱后,知识图谱内部的复杂连接关系则蕴含着更多的未知知识。
基于知识图谱,人们可以充分运用逻辑思维能力,从已有的知识出发,得出未知的、隐性的知识。
其中,知识的推理过程主要围绕关系的维度展开,即基于图谱中已有的事实或关系推断出未知的事实或关系,利用图谱中现有的由实体、属性、关系三元组构成的知识,得到一些新的实体间的关系或者实体的属性。
基于知识图谱进行知识推理的主要方法包含基于逻辑规则的推理、基于图结构的推理、基于分布式表示学习的推理、基于神经网络的推理以及混合推理,等等。
知识图谱能够帮助物理人从元宇宙中提取知识和经验,反哺现实世界。
与物理世界的知识图谱推理主要围绕自然文本内容展开不同,在元宇宙中构建知识图谱时的实体识别相对直观。
这是因为元宇宙中的任何元素都不是凭空自然存在的,它的出现可以伴随着知识图谱中的实体发现过程,例如一栋房子就是一个属性为建筑的地点;
同样的情况也适用于虚拟人的加入,虽然它们的物理人身份未知,但它们具有的元宇宙 ID 天生就是一个实体。
与此同时,元宇宙中的知识图谱关系的构建则比文本处理更为复杂,主要是关系的定义,例如元宇宙中同时空的两个实体本身就存在关系,同时这两个实体发生交互也会产生新的关系,这就要求人们在试图理解这些关系本身含义之前,需要做好关系的分类。
在最终形成的元宇宙范围的知识图谱中,可能会存在其中的实体集到现实社会的物理映射并不全面具备、关系集中部分关系的含义尚不清晰等问题,这时需要引入一些外部的甚至是人工的分析来处理这些初级的知识,例如在不侵犯隐私的情况下获取实体的物理世界的属性和类型,这将有助于人们根据物理世界的已有知识图谱去理解元宇宙知识图谱中的关系。
当元宇宙的初级知识图谱建立并且和现实世界建立联系后,元宇宙中的知识就可以被用来影响现实世界了。
首先,那些在元宇宙初级知识图谱中存在但在现实世界知识图谱中不存在的节点或连线,可以被用来检查现实世界知识图谱的完备性。
这是因为元宇宙的命名实体的收集来源于宇宙的创造过程,而现实世界则是去发掘现有知识,因此前者必然拥有更完备的信息和更庞大的规模,在关系的收集方面亦是如此。
其次,元宇宙知识图谱来源于天生的数字化,更容易将多场景整合成一张图,也就是知识融合。
它将有助于形成更丰富的知识库,而以其为基础的推理所取得的收获必然远远大于现实世界知识图谱的推理,从而使得源自元宇宙的新图谱、新知识反哺现实世界的知识图谱。

