*由声网发起的「RTE 2022 创新编程挑战赛」于 7 月 7 日正式开启,共计 20 万奖金池,单团队奖金最高可达 10 万!点击了解 ☞☞☞「大赛详情 & 积分激励计划」

嘉宾简介:李佳迅,现北京鱼乐实境数字科技有限公司 CTO & 联合创始人。毕业于澳洲昆士兰科技大学,游戏与互动娱乐学士(主修计算机工程, 辅修实时渲染), 曾任 SEMA Operations(Brisbane)软件开发工程师与微展世(北京)数字科技有限公司 CTO。
以下正文:
自从 Facebook 正式改名成 meta,并且元宇宙相关的话题开始在社会上形成趋势和热潮,作为一个从业者,我认为目前在元宇宙领域仍存在很多杂音,相关的概念也比较纷乱,不知道对参加这次开发者大赛的开发者而言,在选题层面,尤其是想做和元宇宙相关主题的项目层面,会不会受到影响。
因此,我整理了从国外社区看到的一些信息,以及近年来的创业体会(或者是我自己比较笃定的方向),希望能够对大家有所帮助。
本次分享的副标题叫作「从光谱的另一端开始」,这是我个人在阐释一个趋势的时候比较喜欢的描述方式,是指我们认为一个事物有一个光谱,光谱的两端是极端的部分,技术也有光谱,其一端是非常复杂的技术形态(或者是技术的实践形态);另一端是实践起来相对比较简单的技术形态,所以这次的副标题也是从光谱的另一端开始。
我想跟大家聊的第一件事与卡马克有关,我不知道有多少人知道约翰·卡马克先生,在国外或者国内游戏行业从业者普遍认为他是 3D 游戏行业祖师爷一样的人物。
他在早期计算机三维渲染各方面技术还没有成熟的时候创立了 ID software,大家耳熟能详的游戏,比如《雷神之锤》《毁灭战士》《重返德军总部》等都是 ID software 的作品,也是卡马克亲自负责的项目。
另外,行业中普遍认为,从《雷神之锤》开始,大家才从卡马克在论坛或者社区提出的理念中引申出游戏引擎的概念,卡马克功成名就之后,创立了一个发射火箭的公司,虽然我不太确定这个公司后来的发展如何,但是在我的职业生涯中再次听到卡马克名字的时候,他就创立了一个新的公司 —— Oculus,这个公司后来被 Facebook 收购,并在 VR 寒冬来临之前发布了一个比较成功的产品 —— Oculus Rift,它与 HTC web 系列是早年大家认为唯一真正有商业化路径,并取得了一定商业化成绩的两款 VR 产品。
在 Oculus 被收购之后,卡马克就来到了 Facebook。去年扎克伯格公布了要把 Facebook 改名为 meta 的消息,同时表明希望将 Facebook 打造成一个元宇宙公司,卡马克也对此提出了相关的看法,并且非常无私地公布了当时没有经过 Facebook 公关修改过的演讲版本。
当时在推特上有一位特别有名的 Web 3.0 的创业者和卡马克打了一个赌,他非常看好元宇宙,认为从当时开始的 18 月内就会出现一个真正的元宇宙。当时卡马克对这位先生所下的论断持有不同的意见,他在回复这位先生推特的时候,说了如图 1 所示的这样一句话。

■图 1
他认为虽然有可能出现一个开放的以 Web 为中心的 Metaverse,并且这个 Metaverse 可能会非常成功,但是这件事不会发生在 18 个月内。果然后来这位先生删除了他的推特账号并且退网,这是一件比较有趣的事情。

■图 2
卡马克的这次回复有两个很关键的重点,如图 2 所示。第一个就是 open, 第二个就是 web-centric。这两个词为什么这么重要呢?
open 是指计算机行业的图形学发展其实长时间以来是有赖于各种开源或者开放的标准在不断地推动我们,不管是商业化的公司,还是技术和整个行业。
比如说在资产的开放标准层面,都是由一个叫 Khronos 委员会的非营利组织在维护这些标准。游戏之所以能够在电脑、手机、Web 上运行,都是基于通用的标准,这些标准是各大硬件厂商、操作系统厂商、浏览器厂商和软件厂商在商议后得出的,它们在早期都是非常底层的,比如 open GL、DX(DX 相对来说是微软 Windows 下的一个专属标准),这些标准的维护者是业界大佬、各行业重要的公司和开发者。
近年来,我们发现这些标准在不断地往应用层发展,不仅仅只规定了硬件层面,还规定了操作系统和显卡驱动之间的交互、接驳、数据交换等。比如 glTF 标准规定的是一种三维资产,使复杂的三维生态用不同的软件做出的三维模型变成一套通用的标准。这个通用的标准首先要 royalty free,它不属于任何一个公司,可以被所有人无偿使用;另外,这个标准是被行业所有主流的内容创作软件和 3D 引擎认可的标准。
同时还会出现 open XR 这样的标准,这个标准能够接驳不同的硬件. 不管是 Oculus 的 VR 眼镜,还是 HTC 的 VR 眼镜,又或者是大鹏的 VR 眼镜等,只需要编写一次代码并在编写过程中遵循 OpenXR 的 Spec 来构建交互,即可以让所有的眼镜都能使用这份代码构建出来的程序。所以,要构建一个成功的 Metaverse,就一定要构建在 open 的标准之上,而不是某个公司突发奇想设计的标准。
Web-Centric 就是以 Web 作为载体。为什么卡马克这样说呢?
从我的角度来说,我认为第一个原因可能就是跨终端,如果说元宇宙的体验只能在特定的设备上运行,那么这显然不可能成为一个元宇宙,因为 meta 这个词是涵盖非常广的一个词,它意味着所有人都用得上。
第二个原因就是 Web-Centric 意味着只需要浏览器。对于任何一个新事物,基于其创建的产品不管是 ToB 还是 ToC,都有一个准入门槛,如果试图使用这套东西的人需要花很大的精力,那么大家使用它的意愿是肯定会降低的。
第三个原因就是,放在 Web 上是具备可传播性的,比如通过微信就能转发给别人,但如果是 App,可能传播性就相对较差,链接网页的传播是自鸣性的。另外,在网页端的浏览器技术越来越成熟的情况下,其实有一个很传统的观念,就是认为在 Web 上运行的内容就一定是轻量级的其实利用一些懒加载、间接加载或者 stream 技术,我们能够使整个 Metaverse 体验可大可小。
现阶段对于 Metaverse 大家可能心里都有某种评判的标准,并且已经出现了一些比较流行或者成功的 Metaverse 光谱项目,比如 Travis Scott 在《堡垒之夜》游戏中举办了一场演唱会,如图 3 所示。

■图 3
这场演唱会借助成熟的 3A 级大作的现有管线制作了非常重的体验。所谓的重是指制作的流程非常复杂,任何在成熟的 3A 级游戏中增加不属于游戏跟配机制本身的体验必然都是复杂的,首先 3A 级的管线不是人人都有的,有些游戏公司开发一款 3A 级大作,可能需要上亿美元的投入才能有这样一条管线。
另外,对于参与者来讲,还要下载游戏的客户端,注册登录并进行一系列的操作。不管从准入机制、制作机制,还是呈现机制来说,我认为 Fortnite x Travis Scott 这样的联名活动,就是元宇宙体验的光谱重极限的那一段。所以从一定意义上来说,也许现阶段不管是行业还是媒体,都会认为这种形式才是 Metaverse。这是我认为在光谱中很重的一段。
我个人将光谱中很轻的一段称为 Microverse,它与 meta 从词义学的角度来说其实不是两个反义词,但是这里我姑且按照反义来用。
给大家举一个例子,相比于刚才 Travis Scott 在《堡垒之夜》游戏中举办的演唱会,这是一个 B 端的项目,如图 4 所示。

■图 4
这是世界移动通信大会巴塞罗拉站西班牙电信公司制作的一个能够直接在网页上运行的任何人都可以立刻进入的三维体验。这个体验的效果在我看来相比某些用 unity 和 UE 制作的活动毫不逊色,无法到达巴塞罗拉参加世界移动通信大会的人也可以观看西班牙电信不管是在工业,还是在物联网等方面的应用。其中还有一对一或者一对多的单独的小房间,可以进入参加讨论。
同时西班牙电信的所有发布会在其中都有 live stream,可以多人同时参与,如果想和旁边的陌生人聊天,还可以互加好友。这个项目是马德里当地的广告公司联合当地的新媒体公司制作的,在当时引起了一定的轰动。
因此,既可以有 Fortnite x Travis Scott 这样非常重型,且要借助现有 3A 游戏的美术资产和环节进行体验的产品,也可以有像西班牙电信这种仅仅用一个网页就能实现的多人同时互联互通的产品。
我们不一定非得追求 Fortnite x Travis Scott 这样非常复杂的体验,仅仅通过网页也能形成这样一个人人都可以体验的产品,并且准确传达产品的主旨。
由西班牙电信的项目我就引入了一个新的词汇,叫作 Microverse,大家可以把它翻译为微宇宙。Microverse 的特点如图 5 所示。

■图 5
第一个是我借用的卡神的话,是指项目不一定非得依靠加密货币或者 NFT 等。第二个特点是说,一般成功的项目都有非常具体的需求,不是无的放矢,把所有人类的活动都添加进来,而是 microverse 的效果更好。
第三个特点是 Web 原生。microverse 一定不会借助插件技术完成体验,而是利用现有的 Web 技术来完成体验的构建。比如三维渲染会用 WebGL 或者 WebGPU,一般成功的项目都不会采用云渲染,因为云渲染太贵了,哪怕在国外也是非常贵的。
第四点的不追求连续性解释起来可能稍微有点复杂,Matthew Ball(一个在硅谷特别有名的在很早就开始提 Metaverse 概念的投资人)在描述元宇宙的时候提到了一个特点叫做连续性,就是所有的体验应该是连续的,可以连续地进行体验并且不断延伸。
这一般是 MMORPG 这类网游追求的,但 microverse 不追求这一点,它的体验是即用即走的,甚至可以割裂,比如西班牙电信的项目,观众今天走到了这个位置,明天进来还会在这个位置重新出现。
第五点是指 microverse 一般最后会有一个 call to action 的结果,就是最后一定会导回某个位置,比如 Facebook 首页,国外一般是企业自己的官网,国内可以把官网当作私域流量。最后一个特点中的实时互动可以是语音、文字或者视频,比如有的会直接做一个开放的语音频道,在两个人靠近的时候就自然通过 v8 TC 的语音进行连接;有的可能出于合规性的需求,做一些文字的实时互动。
一般 microverse 的 3D 场景中都会有一些视频流推进,甚至一些案例会把摄像头也打开,使人脸的视频浮现在三维的阿玛塔的头顶或者头的右侧。在国内其实曾经出现过 microverse 这样的东西,它其实就是一个虚拟展厅,但这个虚拟展厅又加入了实时互动的能力,这时大家突然就觉得不一样了,一旦它的美术风格执行得比较好,并且稍微补充一些功能,大家就会觉得有点像元宇宙。
但其实国外暂时不会把它定义为元宇宙,我自己也不认为它是元宇宙,我会把它定义成微宇宙,这就回到了我之前跟大家分享的光谱的两端,但是光谱的两端在新阶段都有各自存在的价值和意义,对于想要进入实时互动这个领域的同学来讲,都是值得思考的。
除此之外,我还有一些别的案例要分享给大家,图 6 所示是一个乌克兰的公司 party space 做的。

■图 6
他们使用了 party.space 的工具制作了一个类似于 party 一样的场景,其中甚至有 3D 的阿巴塔,它的阿巴塔其实是一个小片,这个小片能够在 3D 的环境当中进行活动。当时因为疫情大家不可能都飞到乌克兰,所以他们就为全球的员工举办了一个线上活动,大家可以同时打开网页进入一个 3D 空间。在 3D 空间中每个人的 avatar 仅仅是一个简单的小片儿,甚至没有做一个完整的带有 ik 的人物模型。这也是一个比较成功的案例了。
图 7 所示是 secret sky,一个国外的电音节。

■图 7
大家可以看到,这也是一个在网面上就可以打开的项目。每一个小人都是来参与这个电音节的观众,它通过实时互动构建公开语音的手法,我觉得是值得学习的。其中每个人可以在自己的脚下生产一个半透明的空间,其他进来的人进入这个空间之后,可以选择要不要聊天。
其实不一定非得有 3A 级游戏的渲染器和现成的美术资产,才能把虚拟仓会做得很 high,只要找到恰当的氛围烘托的手法和方式,以及特定的美术资产的形态,就能够达到满意的效果。
最后还要分享一个技术层面的问题,就是 WebXR 标准,如图 8 所示。

■图 8
刚才我们提到在网页上进行 3D 渲染,需要记住 WebGL、WebGPU 等,它们其实负责的都是渲染的部分,如果网页兼容 WebXR 标准,并且 VR 眼镜本身是基于 openXR 和 WebXR 标准构建的,那么最终在浏览器中也能够通过打开一个网页的方式把我们看见的所有些体验都运行在眼镜中。一般现在主流的 AR/VR 硬件起码都支持 WebXR。
总结下来,我认为可以浓缩成三个观点,如图 9 所示。

■图 9
首先,基于 Metaverse 的概念或者流行词,其实现在有非常多的杂音,我希望大家在畅想自己的想做的项目时,要试着去抵御这些杂音,抵御这个过于宏大的趋势。
因为除非你有非常多的资源,否则不管是要创业还是做一个项目,或者参加一个比赛,都不可能一开始就做出一个特别宏大的沙盒(尤其是这种沙盒类的项目和概念,我建议大家慎重),大家应该多从准入的门槛层面思考如何构建仅仅一小段精彩的体验,这一小段精彩的体验就已经能够让你成功了。至少我们刚刚看到的这些国外项目都是这样的,他们没有构建一个非常宏大的产品,仅仅是一个特别短小精悍的体验,就已经能够得到很多成果。
第二点就是站在巨人肩膀上,虽然我说要抵御宏大叙事,不要想得那么复杂。但是大家要知道,我们的游戏行业和 CG 行业已经发展了很多年,这些行业中都有一些非常成熟的交互定式和一些久经考验的基础逻辑,大家要一定要学会从当中萃取出来最精华最简单的部分,然后将其用在你的体验中进行实现,这也可以是一个走上成功的捷径。
第三就是不管是你自己的产品,还是要构建一个项目或者创业,如果我们把这么多微小的 Web-Centric 的 microverse 连起来,使数据相互打通,不就有了一个 Metaverse?所以说这就是一个聚沙成塔的效应。
当然还有一点就是,大家在做这些东西的时候,一定要注意开放的标准。比如要做 3D 的场景,我就强烈建议大家不管是用什么引擎,都把自己的 3D 资产整理成 GLTF 的形式。如果大家要做一个 VR 的项目,那么在程序、框架的选择层面,就一定要选择那些支持 openXR 或者 WebXR 的框架,因为这个行业的大佬一定都会在开放的标准上不断走下去。
1、创建 microverse 需要哪些知识?
我认为 microverse 是基于 Web 的,所以一定是 Web 为主,要选择能在 Web 上运行的。我建议至少得知道怎么使用 WebGL 引擎,比如 three.js、babylon.js,任何一款 WebGL 引擎都可以。
2、WebXR 和 Web 3.0 有什么关系?
web 3.0 不是一个开放的标准,而是一个概念。WebXR 是 Khronos 委员会的一个开放标准,它是浏览器标准的一部分,基本上现在主流的能够在 VR/AR 眼镜中使用的浏览器都支持这个标准。它就像 Web RTC 一样,Web RTC 和 WebXR 都是 W3C 委员会下的标准。
3、娱乐世界有哪些产品用到了声网技术?
我们有一个产品叫作 XR 在线空间,这个产品就用到了声网的技术。我们主要是用声网的 Web RTC,使产品能够具备语音通话和推流的能力。
关于「RTE 2022 创新编程挑战赛」
RTE(Real Time Engagement)创新编程挑战赛,是声网自 2019 年开始,一年一度面向全球 RTC(Real Time Communication) 开发者、编程爱好者与极客举办的在线黑客马拉松。
本届大赛,我们共分为 2 个赛道,赛道一将继续延用经典赛题「声网 SDK 应用开发」。与此同时,今年我们还特别推出赛道二的新赛题「场景化白板插件应用开发」,给开发者提出更为聚焦的解题方向,探索场景应用与技术能力的边界。
「RTE 2022 创新编程挑战赛」于 7 月 7 日正式开启,共计 20 万奖金池,单团队奖金最高可达 10 万!扫描二维码添加大赛小助手,获取通关秘籍~

关注「声网开发者」
关注实时互动领域的
技术实践、行业洞察、人物观点
☟☟☟

