文章来源《元宇宙十大技术》
人们到底如何感知、享用和进入元宇宙的空间?
元宇宙的出入口是构建在何种技术之上的?
相信看完本章内容的读者,会豁然开朗。
第一节 感知虚拟世界:从二维到三维
元宇宙是为人类创造的一个数字新世界,让人在这个世界中进行生活、娱乐和工作。
不过,在没有“元宇宙”概念和意识、技术不够成熟的时候,人类就没有过类似的体验吗?
其实从人类社会出现以来,几乎每个时代,人们都一直在做着各种类似元宇宙相关理念和技术的尝试,也正是人类这种探求精神和野心,使得今天元宇宙的实践可能触及每个人的生活。
而具体的技术是如何诞生、发展和演进至今的,可能还要从人类刚刚走出非洲、拥有最基本的社会意识和沟通认知说起。
一、从画家和射影几何说起
《人类简史》的作者尤瓦尔·赫拉利有一个非常新颖和犀利的观点,认为人类区别于其他低等级物种的最核心的特点不是使用和制造工具,也不是拥有语言能力,而是拥有虚构故事的能力。
无论是部落、民族、国家等人群形态,还是公司、货币、文化等社会学、经济学认知,甚至是宇宙、登月、科幻这种先锋概念,皆需要人类想象力的认同和信息交流。
从上古人类社会开始,描述、传达真实世界以及想象力的尝试和探索逐步构建起了整个人类社会发展的脉络。
现存最古老的人类描述世界和拓展想象空间的技术手段,是上古原始人类在山洞中所留下的岩画和雕刻,它们广泛分布在距今 32000 年到 4000 年的古人类遗迹中。
不仅能够描述猛犸、狮子、熊、鹿、牛等动物和人类形象,还描述了想象中丰衣足食、牛羊遍地的理想生活状态。
虽然远古人类的技术手段极其有限,但是不妨碍他们想象美好世界,并将美好世界表达出来、留存下来,并与别人交流。
这说明在古人类时期,人们就开始尝试在物理世界构建虚拟空间。
随着人类社会的发展,岩画、文字等最初的原始艺术形态,逐渐演变成了人类八大艺术中的绘画、雕刻、文学和戏剧。
这几种艺术形式既能描述真实世界,又能构造虚拟的空间、场景和故事,满足人类的想象力。
相信每位小说和戏剧的观众,都是沉浸在作家和艺术家所虚构的,但现实中不一定存在的故事之中。
而今天人们能够把虚拟空间进行可视化呈现,其技术就源于古代画家们用来描述世界的工具:射影几何。
从原理上理解,画家们的创作平台不同于三维世界中进行创作的雕塑家和建筑设计师,画家只能在画纸上创作二维内容,如果想要受众感受到三维世界。
就得借助人类观察物理世界的方式,即人眼的工作原理:
三维世界的光线通过眼角膜和晶状体之后,投射到眼球后部视网膜上,形成一个二维图像。
然后人类通过判断物体的大小、远近遮挡、光照明暗、左右眼视差等隐性线索,来获取和判断人类所在空间的三维信息。
当然,受限于人类手部能力和工具的局限,再好的画家也只能近似描述静态的景物,而不能呈现真实动态的世界,可以说,彼时的人类离“元宇宙”还非常遥远。
二、照相技术和动态影像技术
随着 19 世纪照相技术和 20 世纪动态影像技术的发明,人类描述三维空间和世界的能力往前推进了一大步,也让人们有了更多的可能去构建虚拟的元宇宙。
虽然从春秋战国时期的墨子、韩非子到古希腊的亚里士多德,再到宋代的沈括,都曾描述和记录过小孔成像原理。
但是受限于光化学技术的落后,古代人类一直没有发明出能真实记录世界在平面上投影的影像技术。
直到 1826 年,法国发明家尼埃普斯在房子顶楼的工作室里,拍摄了世界上第一张能永久保存的照片。
他当时的制作工艺是在白蜡板上敷上一层薄沥青,然后利用阳光和原始镜头,拍摄下窗外的景色,曝光时间长达八小时,再经过熏衣草油的冲洗,才获得了人类拍摄的第一张照片。
在同一年代,另外一位法国发明家、艺术家和化学家路易·雅克·曼德·达盖尔与约瑟夫·尼塞福尔·涅普斯合作,于 1837 年发明了一种实用的摄影技术,被后人称为达盖尔摄影术(也叫银版摄影术),并申请了专利。
1839 年,法国政府买下了该发明专利权,并于当年 8 月 19 日正式公布,后世将这一天定为摄影技术的诞生日。
与传统绘画技术依赖于画家个人技艺不同,影像技术能够通过设备近乎完全真实地再现物理世界中的场景和物体。
绘画和摄影技术的基本思想和实现方式就如同今天元宇宙三维世界中的数字原生和数字孪生技术,分别有人为了创造虚拟空间而去扫描、复现及再现真实世界中已有的物体和样机。
数百年后的今天,数字原生用到的大多数物体、场景也都还是三维美术工作者使用各种建模工具,进行的人为建模;
而数字孪生的样机几乎也都是使用三维重建技术对真实世界中的物理样机进行的复现或重建所得。
可以说在历史上,这两个构建虚拟世界的手段都有着很强的延续性。
同样,中国古代的皮影戏和 1650 年欧洲发明的魔法灯笼,也都是古代人类利用动态影像技术来描述世界的尝试,虽然原始的技术并不能精确、真实地再现世界,但是魔法灯笼这种互动性很强的艺术品在 19 世纪上半叶的欧洲仍然流行开来,它使用了机械幻灯片、背投、移动、叠加、溶解视图等技术,还包含了烟雾、气味、声音等元素。
你会发现,即使受限于原始的技术,但其显示和表现的维度跟今天人类期望的高沉浸感的元宇宙系统所追求的视觉、听觉、触觉、味觉等感官体验几乎是高度重合的。
随着技术的不断进步,1894 年,美国著名发明家爱迪生根据“视觉暂留”原理制成了“活动电影视镜”,它仅仅是一个木头箱子,每次只能供一个人观看 50 英尺长的胶片,没有银幕,所以它还不能被称为真正的电影。
一年后,即 1895 年,法国人路易·卢米埃尔兄弟创造出一种能将影像放映在白色幕布上的电影机,影像清晰,可供很多人观看。
1895 年 12 月 28 日,卢米埃尔兄弟在法国巴黎卡普辛大街 14 号大咖啡馆中,正式放映了他们拍摄的影片,其中有《工厂大门》《火车进站》等,并获得了成功。
这一天,便被各国电影史学家公认为电影的发明日,标志着电影时代的开始。
至此,人类不仅可以描述和再现真实世界,而且可以动态地在时间轴上进行复现和展示。
这也就给了人们创作空间,并为展示另一个时空系统中的故事、景物、角色等提供了最基础的技术支持。
电影逐渐成为人类历史上几乎是影响最广、受众最多的第八大艺术,而其间的各种艺术表现手法,如镜头语言、光影运用等,都重塑着人类使用视听媒介体验虚拟空间的各种方法和手段,也就是今天元宇宙显示、表现和交互的大量相关技术基础和艺术表现手段。
同时,随着布景技术的发展,从 20 世纪 20 年代开始,电影行业也开始创作科幻主题影片,试图构建虚拟时空中的场景和故事,如 1902 年的法国电影《月球旅行记》和 1936 年的苏联电影《宇宙旅行记》等。
但由于真实感不足,经常能让观众看出是模型,有时候体验还不如看科幻小说或者漫画。
20 世纪 60 年代之后,计算机的数字计算、存储、显示等技术的发展,让二维的图像、视频信号,甚至是三维世界中的几何、材质、光照等信息,都可以使用数字化和数据化的方式进行描述,从而也赋予了人类完全精确创作和描述真实世界中不存在的多维时空的技术能力,随着 1980 年前后《星球大战》系列上映,人们开始真正尝试创作计算机数字技术加持的虚拟世界。
三、电影特效的进一步推动
区别于小说、文学作品依靠文字描述让读者自己去想象,影视作为一种以图像和视觉这种可观看的媒介表达的艺术作品,必须尽可能接近真实、可视化地展现出虚拟的世界,才能得到受众的认可。
20 世纪 80 年代开始,CG(计算机图形)技术的加持,让人们可以更加逼真地建模和描述现实中不存在的世界。
如图 8-1 所示,人们已经能够生成各种光照下的真实感图像,注意玻璃球的折射和阴影,是由计算机的光线追踪算法生成,这张图由计算机科学家吉姆·卡吉雅(Jim Kajiya)于 1986 年绘制。

图 8-120 世纪 80 年代的计算机图形技术——光线追踪算法绘制图
资料来源:Kajiya.The rendering equation.Computer Graphics(Proceedings of SIGGRAPH 86),20(4):143~150,August 1986.
1978 年的电影《星球大战》的特效大师 John Dykstra 和他的团队发明了电脑控制的摄像机设备,还创造出了光剑、全息图、宇宙飞船等完全虚拟的数字化模型,并结合到道具辅助的科幻电影特效之中。
而在 1982 年的电影《星际迷航 2:可汗怒吼》中,创世装置(Genesis Device)把一个石头传回创世星的场景里面有一个 6 秒钟的画面,完全是由卢卡斯影业的一个 CG 部门通过计算机电脑动画制作完成的。
虽然以现在的标准来看,这个近 40 年前的电脑动画特效还很初级,但是这个后来离开卢卡斯影业的团队,成了家喻户晓的计算机图形影视传奇——皮克斯公司。
随着计算机的算力和存储能力的不断提高,20 世纪 80 年代后期的电影中开始有完全由 CG 构建的角色出演的虚拟世界,如 1992 年的《终结者 2:审判日》,以及完全由 CG 构建的虚拟场景,如 1993 年的《侏罗纪公园》。
受限于彼时的技术,无论是计算机的算力和存储能力,还是三维建模能力,即使达到数百万美元经费投入的电影特效制作,三维虚拟的电影动画仅能满足一两个核心角色,比如《终结者 2:审判日》中的正反两派机器人,或相对较为局限的小规模场景,比如《侏罗纪公园》中的恐龙海岛的构建和绘制。
直到 2000 年开始,计算机各方面能力呈现摩尔定律式的发展,电影导演和特效大师们终于可以有较强的能力,为各种影片注入宏大的虚拟世界场景,如 2000 年的电影《角斗士》中三维重建的古罗马城市和其中数以万计的百姓形象;
2001-2003 年《指环王》三部曲中奇幻的中土世界和战争场面中数以千计的角色的活动。
随后一系列科幻和奇幻电影,如 2001 年的《最终幻想》、2008 年的《蝙蝠侠:黑暗骑士》、2009 年全球爆火的《阿凡达》、2010 年的《盗梦空间》、2012 年的《少年派的奇幻漂流》、2013 年的《地心引力》等,无论是全由计算机图形生成,还是将真人真景与虚拟场景相互结合,都表明了虚拟场景创建和绘制能力的显著提升。
而这些创建和显示虚拟世界的技术、模型和数据,当时虽然主要用在影视场景中,但是后续无不可以成为构建虚拟宇宙的素材和基础。
近些年来,好莱坞在每一部电影中都倾向于将更多预算投入到视觉和动画特效之中,而压缩导演、明星等的片酬。
显而易见,当技术发展到一定程度,特效提供的稳定可靠的视觉享受所带来的投资性价比,让其越来越重要,甚至超过顶尖艺术家们在影片中的地位。
因为明星和导演的创作有可能会在某部影片中被观众认可并使票房热卖,也有可能在续集中遭遇滑铁卢。
而虚拟时空的炫酷特效和宏大场景,永远是影视观众们津津乐道和走进电影院的核心动因。这种演变也说明了元宇宙底层构建和描述虚拟世界的技术和能力,相对于三四十年前,越来越受到观众们的认可,就像汽车替代马车、摄影替代绘画、视频替代照相一样。
电影属于单向的展示形式,受众只能观看和体验虚拟世界中导演们已经创建好的场景,不能交互和改变电影里的世界。
但正是这些跟随影视产业成长起来的底层技术,催生了元宇宙的各种底层数字模型和真实感显示的技术。
伴随着计算机图形和影视特效技术的发展,如果将同样三维空间中的场景、角色模型进行实时的互动渲染,并与体验者进行交互,就可以实现物理人与元宇宙中的场景、角色进行实时交互,如同让人进入并操控另一个世界。
而上述功能的技术实现,跟随着 20 世纪 90 年代开始的三维电脑游戏逐渐成熟起来,也更加接近我们今天所期望的元宇宙形态。
四、实时互动——三维游戏带来的革命
游戏设计包括核心玩法设计、场景设计、操作设计、美术设计等内容,本章介绍与美术设计相关的,即交互与展示层面的元宇宙技术,如三维游戏图形渲染技术等。
既然电影特效技术在 21 世纪初就可以很好地构建和再现一个宏大的虚拟世界,那为什么直到近两年,元宇宙概念才被大家关注和重视呢?
其中很关键的一点,就是电影三维特效技术是属于无须交互的预先生成技术,不需要电影观众进行互动和反馈,在影视制作的中前期完成,并存储成为视频流,观影的时候在影院中顺序播放就行了。
而元宇宙对于体验的用户来说,必须是可以实时互动的,用户可根据自己的意愿浏览、互动及改变虚拟世界。
这个特点更加接近元宇宙的另外一个技术源头——三维电脑游戏。
虽然同样依赖于计算机存储和运算能力,但影视作品每个场景中的每一秒、每一帧都可以在影片拍摄和制作的中前期,使用大量的时间和含有成百上千个 CPU 的超级计算机渲染农场进行特效制作。
而服务于个人的三维电脑游戏却只有个人终端上的一个 CPU 加上一个 GPU 进行运算生成,且为了保证实时性和互动性,要有非常快的运算交互响应,每秒钟都要至少生成 60 帧的图像。
对于同样一个场景,在同一年代,电影动画特效所能投入的存储空间、算力规模都要超过个人三维游戏所需算力的多个数量级(几千到几万倍差距)。
因此,即便满足摩尔定律,计算机运算能力每 18 个月都能翻一倍,要想让三维游戏达到接近同时期电影动画特效的显示效果,至少要等待 IT 行业 10~15 年,才能让个人终端算力达到要求。
这正是三维游戏的发展往往要比三维电影特效滞后 10~15 年的原因。
从 20 世纪 80 年代开始,电子游戏就替代弹珠台、棋牌类等传统实物游戏,成为青年人的主要娱乐手段,但受限于计算机实时运算处理能力,1995 年之前的电子游戏都是由非常简单的点、线、面和低分辨率的图标、符号组成的。
20 世纪 80 年代的经典游戏《打砖块》《俄罗斯方块》,以及后来一些动作类游戏如《魂斗罗》《超级玛丽》等,都是用低分辨率的图标表现人物和场景中的建筑、白云等,这些早期的电子游戏的图形和显示都很“简陋”。
同时,受限于显示能力,交互方式也仅限于上下左右四个方向,和一些 A、B 键等简单的确定、取消的操作输入。
1994 年创立的显示芯片公司 3Dfx,一直到 21 世纪初都是个人电脑相关产业的领导者。
3Dfx 率先将用在专业航空航天和工业仿真显示等领域的三维渲染图形接口程序 OpenGL 进行了简化,推出了民用级别的应用编程接口 API——Glide,同时结合其开发的 3D 加速图形加速卡 Voodoo 系列,让很多初创游戏公司可以在个人电脑上开发效果媲美飞行员训练和工业 CAD 效果的三维互动游戏,革命性地开创了三维游戏引领欧美游戏发展的新时代,也由此催生了像“雷神之锤”“古墓丽影”“极品飞车”等一系列传奇游戏。
而随着三维游戏市场的发展,后续的软硬件厂商如显卡公司 S3、ATI、英伟达、DirectX 和微软等,都前赴后继地进入这个巨大的增量市场中,该产业在 1995 年至 2010 年飞速发展。
与此同时,主机游戏行业,如索尼的 Play Station 游戏机和微软的 Xbox 游戏机的生态,也都把三维运算能力,以及是否拥有主打的三维互动游戏作为自身生态的核心竞争力和增加用户黏性的主要手段。
不同于电影院和电视前的观众,通过个人电脑和图形加速卡,或者游戏主机构建的三维虚拟世界里的玩家可以深度地与虚拟世界中的场景、角色进行互动交互,通过操作和行为,达成目标并影响游戏的进程、结局,即在一个较小范围内影响和改变虚拟空间。
在三维游戏领域的商业化扩张中,游戏玩家所体验的虚拟世界非常接近今天元宇宙的虚拟空间与真实世界交互的形态,只不过游戏所设计的虚拟空间较为固定,交互选择和改变相对较少。
每个不同的游戏,甚至是每个不同的单机游戏的用户,都是被割裂地分布在不同的元宇宙之中。
从 21 世纪头十年开始的一系列新的游戏方式,如 MMORPG(大型多人再现角色扮演游戏)中的社交、工会、团队任务系统,解决了大量不同用户如何处于同一元宇宙的问题。
《虚拟人生》等模拟类游戏,提升了用户在虚拟空间交互的自由度,让用户能够更多地定制、编辑和设计自己在虚拟空间的环境。
而底层技术,尤其是其中的场景构建和渲染技术,类似于电影中的动画特效,支撑了这种拥有互动功能的元宇宙,并被每个人实时享用。
对于被称作人类世界第九艺术的游戏而言,其核心是能够创造引人入胜的游戏情节和与众不同的玩法体验,而交互与显示这部分,承担了让玩家从视觉和互动性上直观感受并沉浸于游戏虚拟世界中的最主要的功能。
为了实现这部分功能,也如前文中所述,人们利用了超过 40 年的时间研究了各种游戏的绘制、显示、交互的技术手段、软件平台、硬件基础。
尤其是进入 21 世纪之后,伴随着游戏三维化的发展,诞生了诸如 :
Unity 3D(Unity 是公司名,也是全球应用非常广泛的实时内容开发平台)、
Unreal(Epic 公司的 3D 创作引擎)、
CryEngine(德国 Crytek 公司的游戏引擎)等一系列三维游戏引擎,
以及更加底层的三维建模工具,如 3DS Max 等。
今天,Omniverse(英伟达 3D 公司的协作和真实模拟平台)不仅可以用于各种虚拟现实和元宇宙底层内容的构建,也可用于游戏三维场景的搭建。
今天,每个人都可以通过主流的终端设备享受高清影视带来的故事满足感,体验互动游戏带来的刺激感。
然而,每个人都会感知到,“OK,我只是在玩游戏,我只是在看影视”,没有一个人会真正认为,我们会像《阿凡达》的主角杰克·萨利一样,从真实世界穿透到另一个躯体和世界之中。
那么到底是什么样的技术,能够让人类真正穿越或者沉浸到元宇宙之中,而察觉不到我们所处的物理空间呢?
这就要从同样是欺骗我们视听感官的高沉浸感显示技术及专用硬件说起。
第二节 进入虚拟世界:高沉浸感显示硬件
最近几十年来,科技和产业工作者们用很多新奇的思路和开创性的研究探索,尝试着制造能够让人类在视听感官上完全沉浸于虚拟世界中的设备,催生了今天的 VR 技术和设备。
VR 技术就是采用以计算机技术为核心的现代高科技技术生成逼真的视、听、触觉一体化的特定范围内虚拟的环境。
用户使用必要的特定装备,如数字化服装、数据手套、数据鞋以及头盔、立体眼镜等,就可以自然地和虚拟环境中的个体进行交互,相互影响,从而产生亲临现场的感受和体验。
VR 技术具备以下核心特点:
●实时交互性(Interactivity)。
指用户对模拟环境内物体的可操作程度和从环境得到反馈的自然程度,包括实时性。
例如,用户可以用手去直接抓取模拟环境中虚拟的物体,这时手有握着东西的感觉,并可以感觉物体的重量,视野中被抓的物体也能立刻随着手的移动而移动。
这一特点是 VR 技术里最为核心的特点和体验要求。
●沉浸感(Immersion)。
又称临场感,指用户感到作为主角存在于模拟环境中的真实程度。
理想的模拟环境应该使用户难以分辨真假,使用户全身心地投入到计算机创建的三维虚拟环境中,该环境中的一切看上去是真的,听上去是真的,动起来是真的,甚至闻起来、尝起来等一切感觉都是真的,如同在真实世界中的感觉一样。
●创造力(Imagination)。
强调 VR 技术应具有广阔的可想象空间,可拓宽人类认知范围,不仅可再现真实存在的环境,也可以创造客观不存在的甚至是不可能发生的环境。
一、高难度仿真训练
从 20 世纪 60 年代开始,军用领域的强烈需求推动了相关技术的持续进步,最终带动了不仅仅是三维渲染的算法软件技术的提升、普及和民用化,也促成了高沉浸感硬件的技术演进。
其中最重要的一个需求就是高难度仿真训练。
20 世纪 60 年代,计算机图形学和 VR 之父伊凡·苏泽兰(Ivan Sutherland)发明的计算机交互三维工具 SketchPad、图形学的各种算法 Sutherland 以及头盔式显示设备 Head Mounted Dispaly 都成了后来 VR 头显和三维渲染显示的标准原理及配置来源。
而当年真正推动这些计算机科学家们进行研究的主要单位,正是鼎鼎大名的美国国防部高级研究计划局(DARPA)。
在整个第二次世界大战及冷战期间,美国空军和海军的飞行员培训一直是一个投入经费巨大,并且十分危险的领域。
据不完全统计,冷战期间美国海军飞行员仅在训练中死亡的人数超过 5000 人。
相对于培养成本超过其同体重的黄金价格的飞行员来说,无疑是天价的投入及巨大的生命损失。
随着各国之间载人航天技术的竞赛,更大的挑战在于对宇航员的训练,因为在正式进入外太空之前,宇航员不可能有机会在完全真实的场景中进行训练。
因此,如何在地面上及限定空间内模拟飞行员驾驶战机,或者复现宇航员在外太空甚至月球轨道上面临的环境并开展训练成为刚需。
正是在这个需求的推动下,20 世纪 60 年代,以伊凡·苏泽兰为代表的计算机图形学科学家们,在 DARPA、犹他大学等的资金支持下,研究出了一系列算法和设备,来供给美国军方进行飞行员,乃至宇航员的模拟训练。
1966 年,军事工程师和先驱托马斯·费内斯(Thomas Furness)创建了有史以来第一台空军飞行模拟器。
通过一个覆盖受训者环视超过 180°视角的投影屏幕显示系统,及模拟真实机舱的各种操纵设备和按钮,让受训者以为自己处在真实的飞机驾驶舱之中。
这背后所提供的高沉浸感在视觉方面的核心点,就是提供覆盖全视角的高沉浸感实时三维互动显示。
同时,模拟座舱所在的平台,通过六自由度液压或电驱系统,提供每个方向的运动能力,模拟真实飞行在空中的各种加速度,让体验者有接近真实的触觉和受力感知,也提供模拟真实飞机流体噪声的立体声效果。
这样依托于技术之上全方位的感官欺骗,营造出了高沉浸感环境,实现了飞行员的训练,虽然还不能完全取代飞行员真机飞行训练,但现在全球绝大部分飞行员训练体系,已经将最大比例的训练量和各种危险科目尽可能放到模拟器中进行训练。
这样不仅节省了大量的飞机起落和维护成本,也极大地提高了安全性。
当年伊凡·苏译兰和犹他大学计算机教授大卫·埃文斯(David C.Evans)组建的 Evans&Sutherland 公司,后续几十年一直提供着最前沿的计算机三维图形渲染软硬件和高沉浸感模拟仿真设备,在被并入罗克韦尔·科林斯(Rockwell Collins)公司之后,仍然是美军和 NASA 的很多航空航天设备模拟的主要供应商。而熟悉航空航天领域的读者一定知道,罗克韦尔·科林斯公司正是实现美国登月目标的“阿波罗计划”的主供应商。
20 世纪 70 年代,在高难度仿真训练这个领域的探索和尝试,奠定了后来所有高沉浸感硬件系统的三维标准:
(1)视觉上提供全视角覆盖的虚拟环境;
(2)触觉、重力等感官上也提供相应的环境模拟;
(3)提供接近真实场景的高响应速度的实时交互和反馈。
而同时具备这三个特性的系统才能很好地把体验者带入另一个时空去感受。
这也奠定了今天元宇宙的感知指导和沉浸感设备的基础。
随着技术的发展和进步,模拟训练进入 20 世纪 90 年代之后,不仅其整个运算能力带来的显示真实感大幅度提升,综合成本也随着摩尔定律的发展逐年下降,从最开始只针对安全性要求极高、成本不敏感的航空航天领域,慢慢普及到各种成本敏感的领域,比如游戏型模拟娱乐系统、一般行业训练等,这也为后续该技术大规模民用化普及提供了可能。
逐渐地,其简化型产品也变得普及,比如我们可以在游戏娱乐厅、展览馆等地看到这类产品。
二、走进工业的数字样机及数字评审
除了航空航天训练等对高沉浸感的需求带来的元宇宙底层技术探索之外,另外一个跟人们生活息息相关的领域——工业设计和制造业,在计算机辅助技术的加持之下,也从 20 世纪 60 年代开始,进行着一系列技术探索和尝试,并由最开始的数字化设计、仿真领域,一路成长为给元宇宙高沉浸感显示入口提供核心渲染和交互技术设备的基础领域——高沉浸感工业评审系统。
从 20 世纪 40 年代,人类发明第一台电子计算机埃尼亚克(源于美国陆军在宾夕法尼亚大学设立的“弹道研究实验室”),用于第二次世界大战中的密码破解、弹道计算、气候模拟等高算力需求之后,电子计算机便成为人们生产、生活中的重要工具。
1962 年,法国数学家和工程师皮埃尔·贝塞尔(Pierre Bézier)发明了贝塞尔曲线,可以通过四个点的坐标位置,绘制出一条光滑的曲线,并且随着这些所谓的控制点有规律地移动,曲线将会产生皮筋伸引一样的变换。
这种可以编辑的、控制的“智能化”的矢量线条,为艺术家提供了一种理想的图形编辑与创造的工具。
从这以后,计算机辅助的图形化系统,被大量地用在工业领域,并诞生了 CAD、CAE(计算机辅助工程)、CAM(计算机辅助制造)这几个学科,出现了大量的相关软件系统,如 AutoCAD、SolidWorks、UG、Catia 等,以及计算机辅助的方法论,让建筑师、工程师和艺术家通过电脑,代替以往的图纸,更加快捷、高效地设计、编辑、改造工业设计和进行生产辅助制造,形成无纸化设计。
与此同时,人们还发现,通过上述软件系统,还可以在实体产品被制造出来之前,进行数值仿真计算和数据模拟。
因此,工业品的原型样机和验证过程大幅简化。
尤其是特别复杂的系统,如飞行器、航空发动机、大规模超级建筑,都会在虚拟的数据空间有其数字化的映射品,这就是今天工业元宇宙的核心之一“数字孪生”。
从中可以引出本节的一个很有意思的问题,就是这些虚拟的数字世界的高复杂度产品,难道仅仅是一堆空洞的数据吗?
它们是怎么被显示出来的?
是否能让设计师们像看图纸一样可视化地观察审视,甚至是众多专业人员一起协作,对它们的内部结构进行浏览、漫游、分解、研讨、评审?
其实从人类一开始使用计算机进行辅助工业和辅助设计来代替图纸时,就一直伴随着数字设计和仿真工作,它也推动了我们今天非常重要的工业评审系统,即高沉浸感交互系统的发展和应用。
为了能够让更多的专业工程技术人员,即用户,更加直观和深入地观看数字样机和工业设计品,VR 开发人员使用了三维显示软硬件技术,将三维的数字样机数据放在一个屏幕上显示出来,即将虚拟空间中的三维点、线、面、体通过光照计算和显示计算投影到屏幕上。
其投影原理与绘画、摄影、电影中的三维空间到平面的投影相同,而其背后的数据空间和实时显示模式(每秒钟至少 30 帧),催生了今天非常流行的三维电脑和手机游戏。
当然,仅仅在一个显示器上进行实时的三维交互显示还不够,类似于高难度飞行训练领域的需求,工业上进行大型产品内部设计评审,也需要全沉浸到产品和环境中,尤其是汽车、飞机、核电站这类产品还需要多人参与。
因此工业仿真领域,诞生了一系列大规模高沉浸感显示设备,如 CAD Wall(单面大屏幕墙体)、环幕投影系统(弧形投影显示墙)、Cave 系统(多面环绕式投影墙体)等。
区别于飞行模拟设备中人在座舱中相对固定不变的坐姿所带来的固定视角和固定观看点;
也为了保证显示的三维内容,能够跟随观看者视角的运动,随时进行移动和变化,以保证能够从各个角度,甚至是设计品内部的物理不可达死角去审视工业设计品,VR 开发人员设计了不计成本的沉浸系统,在头部安装动态视点追踪设备,用以追踪体验者视点,并以高速的方式,指导大屏幕的绘制,每帧都重新生成与新位置对应的立体内容,并同时使用双目立体视觉为体验者提供与真实物理空间相同的双目视差显示。
通过上述“运动视差”和“双目视差”叠加的高沉浸感显示,工业仿真评审系统可以更加真实。
这些追踪技术,也用于今天的手术导航、计算机图形人体动作采集等方面。
时至今日,高端工业品,无论是汽车、飞机、高铁,还是大型水库、核电站,无一例外,都是通过这种连接虚拟与现实的高沉浸感现实系统进行最终数字评审的。
只不过这样的系统,动辄几百万美元甚至是上千万美元一套,平民百姓很难消费得起,也顶多容纳十多名专家使用。
到底设计什么样的设备,才能让更多人享受到虚拟世界的精彩和快乐呢?
接下来我们将详细介绍。
三、走进娱乐的特种影视与浸式展览
高端的工业设计评审设备能够在视觉和交互上提供超过飞行员模拟培训更加真实和互动的沉浸感,但是与高端模拟培训设备一样,极高的研发和部署成本,和太少的可体验人数让其在被发明的 20 世纪 60 年代到今天,都始终停留在高端应用和科研象牙塔之中,普通人没有用过甚至没有见过。
只有降低成本,才有可能实现大规模应用。
类似音乐、戏剧及电影工业领域,通过大规模观众共同体验的剧场和电影院,建造能够同时容纳众多观众的高沉浸感体验系统和设备,这就是在当年设备小型化和轻量化尚未实现技术突破的时候,最为有效地降低成本和普及应用的手段。
从 20 世纪 80 年代开始,这种尝试率先从主题娱乐行业中的高沉浸感特种影院和展览展示行业开展起来。
主题乐园和科普科教领域,既需要让观众和体验者有区别于家中观看电视和影院观看电影的体验,又要考虑面向公众需要的低成本,因此需要尝试高沉浸特种影院,如球幕电影、动感电影、交互电影等。
通过技术供应商们,如 Evans&Sutherland、Sky-skan、IMAX 等公司的多年努力,率先将球幕电影应用到天文科普领域,替代传统的天象仪(行星仪),能够形成 360°的全沉浸感动画影视。
随后,一些使用鱼眼镜头和 75 毫米胶片航拍的影片,也随着 IMAX 影院的推广,让更多人体验到全沉浸感飞行体验的乐趣。
尤其是在迪士尼主题乐园中,其“飞跃加州”系列引领了第一代的全沉浸互动球幕系统,可以同时提供视觉的高沉浸感覆盖和运动平台带来的加速度等一系列虚拟空间感觉。
后续在环球影城、迪士尼、韩国乐天乐园、中国长隆、融创乐园等一系列主题公园的发展过程中,演进出独特的多人高沉浸感娱乐模式“黑暗乘骑”系统。
它其实就是一个放弃交互性,增加故事性和娱乐性的 VR 沉浸系统。
可多人体验的模式有效降低了成本和入场门槛,让更多的人拥有了体验机会。
今天,迪士尼、环球影城的小黄人系列、加勒比海盗、变形金刚等项目也成了家喻户晓的文化符号和娱乐方式。
参观了解过近二十年世界博览会的人会发现,如今跟几十年前相比,最大的差别就是世博会的展览手段更多地变成了声光电投影系统,给参观者带来了更多的临场沉浸感和想象空间。
另外,近二十年来,所有开工建设的博物馆、展览馆、规划馆、文化馆,其声光电设备和沉浸感观影项目的比例越来越大,在全球都培养出能够仅凭展览展示行业就获得上市的企业,如新加坡的笔克,中国的水晶石、风语筑等。
2000 年前后,个人高沉浸感技术成本仍旧高昂,一般人只能体验到交互性能受到限制的高沉浸感影院或者“黑暗乘骑”,即半互动的 VR 设备(可以对观众输入动态内容,但不能响应观众的输入)。
这种单向的体验显然不能支撑人们对于元宇宙构想中的交互行为。2010 年前后,智能手机逐渐成熟和市场化、民用化,催生了一系列小型的运算、交互、显示器件。
同时,这些技术的成熟和普及激活了一款个人高沉浸感显示硬件的普及,相当于打开了另一扇让大众通往虚拟世界的交互之门。
这是什么设备呢?
第三节 个人元宇宙交互设备:头戴式近眼显示
近十年来,借助移动互联网硬件设备普及的东风,头戴式 VR、AR 显示技术不断迭代,带来了相关产业的巨大机会和变迁。
一、最早的头戴式显示设备(HMD)
最早的头戴式显示设备是源于 1968 年伊凡·苏泽兰的一篇论文所设计的原型产品。
这篇论文中写道:“……将向用户提供一种你移动,他也变化的透视图景。”
其实这就是我们今天提到的所谓提供虚拟显示场景高沉浸感的“运动视差”,来尽可能地对人眼进行欺骗,达到以假乱真的目的。
然而,当时这种头戴式显示器的重量超出了大多数人的承受能力(据说当时总重量超过 100 公斤),用来跟踪用户的视线以反馈给计算机的设备(功能相当于今天 VR 的头部追踪设备)也太重了,需要在墙上或天花板上安装一套装置,用来吊挂着使用。
Evans & Sutherland 公司生产的第一台头戴式显示器很快就赢得了一个绰号“达摩克利斯之剑”。
它通过一个巨大的、看起来很危险的吊臂悬挂在天花板上,当用户改变他们的头的位置时,吊臂关节的移动就传输到计算机中,计算机则相应地更新屏幕显示,如图 8-2 所示。

图 8-2 世界上第一款头戴式显示设备的体积和重量都非常大
资料来源:www.tomshardware.com/picturestory/704-history-of-virtual-reality.html
首先,Evans & Sutherland 的头戴式显示器中的双目显示器提供了一个三维情景,下一步要做的就是实现显示图形的实时化。
为此,苏译兰和他的助手开发了几种其他系统,如剪辑驱动、矩阵乘法器和向量生成器。
这些元素与头盔显示器结合起来,形成了一个集成的系统,就可以提供一个虚拟的无缝世界。
熟悉计算机图形学算法的读者会发现,绘制一个矩形像素系统所用到的绘制算法,包含大量的 Sutherland 算法,其实就是由苏译兰那时所开创的方法。
而今天,每一个在体验二维、三维游戏,或者沉浸于元宇宙里面的用户,所看到的每一个像素,也都是由 Sutherland 算法所绘制出来的。
之后的几十年,头戴式虚拟显示设备在 VR 领域一直是比较小众的存在,这是因为在当时的技术条件下,其重量、可靠性、安全性、易用性等方面,都并不能很好地满足模拟训练和仿真评审等方面的需求。
但是,进入 20 世纪 90 年代后,大众娱乐风潮在欧美的风行,使得北美和日本诞生了很多先驱者,尝试着向大众推广和展示虚拟世界及 VR 技术的魅力。
二、第一次 B2C 尝试:20 世纪 90 年代的 VR 头显产品
杰伦·拉尼尔(Jaron Lanier)在《虚拟现实:万象的新开端》这本书里,为 VR 总结出 52 种定义,其中不乏技术、哲学、社会学,甚至诗意的探讨。1984 年,拉尼尔成立了最早售卖头戴式显示器和配件的首家 VR 公司 VPL Research,即 VRL 实验室。
作为数字化时代的缔造人之一,20 岁的拉尼尔提出 VR 的概念:
利用电脑模拟产生一个三维虚拟世界,提供使用者关于视觉、听觉、触觉等感官的模拟。
经过先驱者们的探索和尝试,在 1990 年,VRL 实验室推出了一款面向公众的 VR 设备。
同时,公众第一次了解到了该实验室创造的 Virtual Reality 这个词汇,在当时公众的认知和想象中,这是指用立体眼镜和传感手套等一系列传感辅助设施来实现的一种三维现实。
只不过以 20 世纪 90 年代的人类技术手段,虽然它的目标是民用产品,但价格仍然昂贵到 5 万美元一台。
20 世纪 90 年代,电子游戏和电子娱乐,借助于计算机技术和电视技术的普及和发展,代替了传统的棋牌、书籍等,逐渐成为青少年娱乐的主流。
电子娱乐非常强调交互性和实时性,而作为娱乐产品,其对音乐、美术、图形等方面的需求,也都和 VR 技术最核心的技术点和终极诉求拥有极高的共同点和重叠性。
因此,从 20 世纪 80 年代开始,引领全球电子娱乐的日本厂商,如世嘉公司(SEGA)、任天堂(Netendo)、索尼(Sony)等,都尝试着推出各种更高沉浸感和娱乐性的 VR 设备。
头戴式显示设备成了各家游戏公司尝试 VR 产品化的唯一技术方向。
头戴式显示设备及个人 VR 这个强绑定的概念,从诞生那天起,就已经被其个人化、小型化、交互性的技术特点所确定了。
世嘉公司在 1993 年推出了 SEGA VR 进行尝试,而这其中最为著名的、被业界公认为第一款真正面向消费者端的 VR 产品,是任天堂公司在 1995 年推出的 Virtual Boy。
由于技术复杂度、成本、可靠性、开发周期等方面的拖延,当时的任天堂社长(相当于首席执行官),为了赶在 1995 年 7 月 15 日将新产品投放市场,不得不把 Virtual Boy 原计划的头罩眼镜式的设计,改为三角支架平置于桌面的设计作为妥协。
在竞争异常激烈的游戏机市场,任天堂当时面临着索尼和世嘉公司各自的拳头产品——第一代 Play Station 和世嘉土星游戏机的强劲竞争。
任天堂公司急于推出 Virtual Boy 这种划时代的游戏机产品,延续其上一代产品 Game Boy 的成功。
他们寄希望于在第一财年内卖出 500 万台,并带来 800 亿日元的利润。
但是,受限于当时技术的局限性,一台分辨率为 384×224 的单色显示器(今天的手机分辨率在 2048×1080,即 2K 以上),再加上没有头部追踪功能(也就不能提供运动视差)的游戏设备,是不可能提供革命性体验的。
Virtual Boy 第一批 70 万台上市后,后续两周仅仅卖出了 14 万台。
销量的失败证明了当时的 VR 技术还远未达到让游戏用户满意和接受的程度。
不过,Virtual Boy 成为人类历史上被铭记的第一代真正推向公众的 VR 游戏设备,每一个当年亲身体验过 Virtual Boy 的玩家,获得的视觉冲击都是前所未有的。
三、移动智能终端带来 VR 产品的革命
2007 年,iPhone 将全球的消费者们带入了移动互联网时代。
随后,作为个体消费者拥有的手持终端,它的数据通信能力计算机(依赖 3G、4G 等网络技术)有了很大提高,而且其运算能力也超过几十年前计算机大型工作站的图形计算能力。
同样,高分辨率小尺寸平板设备、视觉技术和微机电系统惯性传感器所支持的空间定位技术等在智能手机和移动互联网时代的长足发展,也让人们再一次看到将虚拟世界带入每个人的生活的可能性。
至此,又一波 VR 大潮来到了所有人的面前。
2012 年,Oculus Rift 问世。这是一款在 Kickstarter 上众筹到 250 万美元 的 VR 眼镜设备,它将人们的视野重新拉回到了 VR 领域。
创始人帕尔默·洛基(Palmer Luckey)本身是一个 VR 收集控,他用遍了 20 世纪的各种 VR 产品,感到体验都不尽如人意,2010 年,再也无法容忍市面上所有 VR 头显产品的他,决定干一番大事业,地点在他爸妈的车库里,于是便有了 Oculus Rift。
洛基狂热地在各种 VR 的论坛上发帖,引起了约翰·卡马克(John Carmack)的注意,彼时卡马克还是游戏界大牛,供职于 Id 软件公司。
随着原型机的不断完善,洛基从 VR 爱好者变成了 VR 天才,他把自己的设备命名为 Rift(裂缝),用以指代 VR 虚拟空间对真实世界的割裂。
公司名 Oculus 在拉丁语中是“眼镜”的意思。
他把自己的项目放到了 Kickstarter 上,寻求众筹的资金总额是 25 万美元。
最终,他得到了 250 万美元,推出了 Oculus 开发者版本(DK1)。
而卡马克在 2013 年离开 Id 软件,加入了 Oculus,成为首席技术官。
这也标志着整个三维游戏行业,经历之前几年的算力过剩和缺乏创新的煎熬后,终于认可 VR 这种手段和方式是高沉浸感三维游戏的下一个革命性改变。
通过 Oculus Rift 的尝试,人们惊讶地发现,VR 所需要的技术,尤其是显卡、显示器、图形处理能力、轻量化面板、空间跟踪能力等,随着智能手机行业的发展,近年来已经默默地取得了重大的突破。
公众对 VR 的兴趣被重新燃起,也让企业看到了新的发展机遇。
这也就有了后来一直为青少年用户流失所焦虑的互联网巨头 Facebook 公司创始人扎克伯格在 2014 年豪掷 20 亿美元,天价收购 Oculus 的故事。
从 2012 年开始到 2016 年,全球有众多厂商尝试加入这一次的 VR 大潮之中,这其中既包括已经是互联网巨头的谷歌、Facebook、微软,也包括游戏机厂商索尼,还包括手机厂商三星、苹果、HTC、华为等,以及数以百计的硅谷和全球创业企业,如 Magic Leap 等,甚至还包括传统的光学系统公司爱普生、卡尔蔡司等。
这些公司都推出了自己的原型产品,从功能上,既包括 VR 头显,也包括 AR(如 Google Glass)和 MR(如 Hololens、Magic Leap One)等头戴式设备,品类涵盖非常广;
从设备形式上,既包括最为简单的“手机+盒子”方式的 Cardboard 方案 VR 头显,如 Google Cardboard、暴风魔镜、三星 Gear VR 等系列,也包括需要有线连接电脑主机的主机 VR,如 Play Station VR、Oculus Rift、HTC Vive 等系列,甚至还包括代表着未来趋势的 Stand alone 这种一体机模式的 VR 设备,如 Oculus Go 等。
这种百花齐放的市场繁荣,以及资本市场一致看好之下每年超过百亿美元的投融资注入,让业界一般都把 2016 年或 2017 年称作 VR 元年,代表着这项技术真正意义上再次回归了公众视线并成为消费类电子产品的又一次可能。
然而,在 2016 年之后的两三年中,一些性能和个人体验较差的设备,如仅仅有三自由度交互的 Cardboard 方案 VR 头显和早期的 Stand alone 一体机率先被市场淘汰,算力强劲和渲染效果优势明显的主机 VR,也因为部署简易性、体验舒适性等一系列问题,并没有真正受到全球用户的完全接受和认可,例如 PSVR、Oculus、HTC 三大主要品牌的全球年销售量总和,仅徘徊在 200 万~300 万副。
不过,几十年前 VR 领域的发明者们所设想的拥有最基本的与虚拟世界交互的功能,都已经在这一代 VR 硬件设备上得到了初步的实现,主要体现在:
●视觉上提供全视角覆盖的虚拟环境。
可提供 100°以上的 FOV(可视距离),以达到更加接近人类自然观察的可感知视场角,从而提供全沉浸的现实环境。
●触觉、重力等感官上也提供相应的环境模拟。
通过三维交互手柄、VR 跑步机、立体声音频设备等一系列设备实现了除视觉之外的感官沉浸。
●提供接近真实场景的高响应速度的实时交互和反馈。
超过 90 赫兹刷新率的 OLED 或 LCD 显示设备,结合对于头部和手部的三维追踪,提供接近于三维图形绘制刷新率和实际头部定位精度的三维交互和虚拟信息显示的更新反馈,形成真正实时的、对虚拟世界的交互和体验。
伴随着市场的火热和全社会期望的提高,第一次 VR 元年的主要产品还不能很好地满足消费者对于高沉浸感空间三维游戏的需求。
还需要想办法在以下几个方面大幅提高 VR 产品的性能:
●近眼显示分辨率还达不到人眼需求:
单眼分辨率当时大概只能达到 1000×1000 左右,折合到人眼观看的角分辨率,相对较低,还远远不能达到人眼分辨率极限的 1 弧分,仍需持续提高分辨率(约 5 弧分左右),以改善视觉效果。
●三维交互设备笨重且不宜部署,用户友好度有待提高:
基于当时的由外向内的跟踪系统,需要在用户体验的空间中部署外置的摄像头或标定设备(如后文会详细讲到的“光塔”、外置追踪 Camera),使用非常不便,需要更加简易、低时延和易于部署的空间交互技术方案。
●运算能力和渲染的真实感:
在移动互联网时代,以手机 CPU 为基础的芯片,算力不足以支撑大场景真实感的三维渲染,而主机系统又需要一根显示线缆连接 VR 设备。需要开发更好的运算/显示传输框架,满足未来的需要。
●运动眩晕问题还未得到很好的解决,需要更深入的人体工程学体验研究,改善用户在体验虚拟世界时候的眩晕和不适等问题。
从 2017 年年底之后的第一次 VR 寒冬开始,很多厂商开始静下心来,逐步提高相关的技术性能。
并且,这次由于有了巨大的目标和市场预期,很多核心技术,如三维交互空间技术、高分辨率显示屏幕、无线通信等,都开始独立于全球智能手机市场,获得资本的注入,进行了迭代和提高,这也就预示着,将出现由技术成熟所带来产品性能的质变和销售量的爆发。
伴随着 2020 年新冠肺炎疫情席卷全球所带来的民众居家生活方式的改变,Facebook 公司推出的第二代一体机产品 Oculus Quest 2 在全球大卖。
截至 2021 年年底,其全球保有量接近 1000 万台,为 VR 产品真正被公众接受并构建生态平台奠定了基础。
然而,如果仅仅是 VR 设备,其极高的沉浸感在今天可能更适合用来进行游戏体验。
无论是连接和操控真实世界,还是体验完全真实到以假乱真的虚拟世界,从今天来看,通过 VR 产品都不能很好地做到。
连接并显示世界的话,手机和物联网设备往往是更加成熟和更好的选择。
如果仅仅是作为三维体感游戏机,或者是游戏设备的替代者,VR 显示设备预计全球的年销量也就是 5000 万台~1 亿台的规模,这也远远不可能取代当年个人电脑,或者今天智能手机的体量和规模。
而最近三四年,由于智能手机设备的逐渐成熟和普及,其技术更新和增长乏力,已经带给全球电子厂商和国际资本越来越多的压力和危机感。
是否有一种技术或者产品将来能够替代今天的智能手机,成为未来 10 年或 15 年内,主导人们生活且人手一部的必需品呢?
让我们来从 AR 技术做进一步的了解和展望。
四、AR、MR 穿透式显示技术
电脑、手机、VR 头显,从产品形态、使用方式、连接方式等维度上来区分,都有不同的物理形态和硬件、软件的定义。
而对于体验者或者消费者来说,这些形态本质上的区别是什么呢?
这就要从一幅学术界区分应用的抽象图说起。

图 8-3 从信息传递和用户的关系看 IT 各领域或产品的区别
注:图中 R 代表真实世界,即 Real World,C 代表计算机系统,即 Computer。
在图 8-3 中,如 A 情况所示,2000 年之前,电脑端对于任何用户而言只是一种工具,使用者既可以跟电脑系统进行交互输入、输出,也可以在真实世界中交互,二者是并行不悖的;
而 B 情况中,大家发现,VR 领域的应用,是将体验者与真实世界进行隔绝,从而让体验者能完全沉浸在计算机所营造出来的虚拟世界之中。
经过近十几年移动互联网通信、计算、物联网等技术的发展,C 情况更符合今天人们的生活形态,即个人可以跟众多设备连接交互,又不影响其在真实世界中的生活;
而 D 情况所描述的,就是我们将要介绍的 AR/MR 系统,即虽然计算机系统能够给人类提供高沉浸感的信息、计算、显示等,但同时不仅不隔绝真实世界的信息,反而通过各种“穿透式”的信息交流和融合方式,将虚拟世界与真实世界相互融合,而这两者之间信息与显示的融合,正是 AR、MR 设备开发者们所要追求的目标,其本质是两个世界的连接。
D 情况会是在 B 情况(VR)和 C 情况(移动互联网)两项技术和应用形态大幅发展之后,人类追求的下一个产品形态或者生活状态的目标。
如何利用设备达成 AR 或 MR 这种连接两个世界的能力呢?
在智能手机时代,甚至更之前的个人电脑时代,计算机科学家们一直尝试将虚拟世界与真实世界相互结合。
只不过当时采集真实世界的摄像设备相对分辨率、精度较低,PC 或智能手机的显示效果也相当有限。
但从 2010 年开始,已经有大量的运行于电脑或智能手机上的 AR 底层库能够支持相关的功能,如 Total Immersion、Metiao(后在 2015 年 5 月被苹果公司收购,成为 ARKit)等早期公司开始进行各种应用尝试。
2015 年之后,主流手机品牌和上游芯片厂商已想到先在智能手机产品上进行 AR 算法应用尝试,积累技术后再回到头戴式设备之上。
由于当时的运算和显示设备都不具备光学穿透式显示能力(Optical See Through),技术上的实现手段是将虚拟世界绘制生成的景物,通过匹配算法叠加到摄像设备拍摄到的实景之中,今天我们称之为数字式或者视频式穿透显示(Digital See Through or Video See Through)。
现在的 VR 显示器结合外置的采集摄像头,也可以实现这种 AR 或 MR,只不过时延和匹配度还不够理想。
人们是否需要更加简便、易用、友好的设备来实现这些功能,将来代替智能手机呢?
2012 年 4 月,谷歌推出第一款量产的 AR 设备,AR 技术开始由个人电脑和智能手机时代进入穿戴式设备时代,也就是我们今天所说的 AR 眼镜或者 AR/MR 头戴式设备。
虽然受限于轻量化和算力的限制,Google Glass 还不能运行实时三维标定算法,进行虚拟景物和真实场景的匹配融合,但是其率先实现光学式穿透显示的实景与虚拟物体的融合,引领了后续绝大部分 AR 与 MR 设备的发展路线。
整个 21 世纪的头十年,与 Google Glass 同时代的很多智能眼镜/AR 眼镜公司,如 Vuzix、ODG、Intel Vaunt、Epson 等,都在同一时期推出了类似产品。
但受限于那个时代轻量化限制下薄弱的计算、存储和通信传输能力,这类 AR 眼镜的用户体验和市场认可度都相当有限,只有 Google Glass 总计卖出了约 80 万副左右,很难形成对 C 端市场的影响力或建立相关内容和开发者生态。
微软于 2015 年 1 月发布了面世的头戴式显示器 Hololens,在一定程度上改变了这个现状,虽然以牺牲重量和便携性为代价,但是有着多年经验积累的微软,在 Hololens 上集成了众多空间感知传感器和相对高性能的运算芯片,从而可以真正达到对于使用者空间位姿的实时精确计算,并能够对周围的三维空间进行简单的场景三维重建和物体识别。
从而,微软 Hololens 成为第一个真正实现实时精确、虚实融合的 AR/MR 设备,人类才真正从桌面或手持时代进入了可穿戴时代。
后续的 Magic Leap 公司推出的 Magic Leap One 头显也达到了相应的技术能力和水准,并且集成了双焦面显示能力。
不过,由于各方面技术还在初期探索,尤其是轻薄的穿透式显示光学系统属于相对比较新的技术,Hololens 和 Magic Leap One 这类产品的定价一般都要到 3000 美元以上。
有待于技术进步来拉低成本进行普及,才能发挥 AR 技术最大的威力,使其成为产业界和资本界真正所预期的下一代移动互联网。
五、展望未来——元宇宙显示终端的可能形态
AR 和 MR 技术的成熟和量产仍然有很长的路要走。
但幸运的是,除了光学技术和轻量化技术之外,AR 和 MR 在绝大部分底层技术,如运算芯片、空间感知标定、图形渲染、通信传输、供电等方面,都可以与 VR 头显设备进行共享。
总体技术共享率可能达到或超过 60%~70%。
因此,业界一般预测,在 VR 头显成熟及应用生态建立之后的很短时间内(可能 3~4 年),AR 技术和设备就可以大面积普及。
通过这种无须切断体验者与真实世界的穿透式交互能力,未来可以形成一类戴在头上能够解放双手的交互设备,不仅仅能够实现今天我们智能手机上所有 App 的功能,同时能够提供让所有数字世界和虚拟世界的信息与真实世界场景叠加和交互的能力,类似今天的百度地图 AR 导游。
人类社会将从移动互联网,转向可穿戴互联网时代。
头戴式三维显示技术(也可以称作近眼显示技术),作为高沉浸感显示技术中比较特殊的一个细分领域,一直关注单个体验者。
30 年来,真实世界采集技术、光学技术等的发展,也催生了能够更好结合虚拟世界与真实世界的 AR/MR 技术和相应的产品,并逐渐拓展和丰富着人类个人计算终端和移动互联网能力的边界,使其更便捷有效地服务人类生活。
在进入下一个人类信息技术大爆发时代之前,即脑机接口、视网膜显示、量子计算等技术成熟之前,最有可能成为未来元宇宙入口的终端产品,将会是在现在的 MR 设备上发展起来的——它是既可以在室外连接虚拟世界与真实世界,又可以在封闭空间单独当作 VR 头显体验的全能穿戴式 MR 头戴式设备。
很有可能在 10 年内,我们就可以通过资本和产业的主推,看到这种产品逐渐成熟并进入大众的生活。
今天的头显设备是如何做到对体验者所观看到的虚拟世界掌控自如,用几块小屏幕来呈现一个无限可能的虚拟世界的呢?
这背后除了两个已经成长近 70 年的传统技术领域——“三维图形渲染”和“近眼显示光学”之外,还有一个近十年来迅猛发展起来的、对个人元宇宙体验起到决定性作用的“个人空间感知技术”。
而这个技术到底源于何处,是如何发展起来的呢?
我们会在下一节详细剖析这个技术。
第四节 对另一个空间进行操作:三维空间交互
同时拥有覆盖全视场角的三维真实感并建立完全等同于人在真实世界交互能得到的“双目视差”和“运动视差”,才能让人真正认为自己是在虚拟的那个世界之中。
简言之,就是这个虚拟世界是拥有真实世界完全相同的视觉特性的,能够跟着你的头部和眼部全面地动起来。
而只有能够精确获取观察者头部的位姿和位姿变化,才能以此作为输入,让显示设备和系统生成对应的动态渲染内容,营造提供动态真实感的两种“视差”。
而今天,进入元宇宙的时代,我们的头戴式显示设备,区别于之前的电脑显示器、手机屏幕等,是人类历史上针对消费者端的设备中第一次拥有此种功能的。
而具有革命性的这种输入和交互技术,是如何获取到体验者的头部数据的呢?
这条技术路线又是从何而来的呢?
这就要从三四十年前,电影开始 CG 化和动画特效化的时代讲起。
一、源自电影动画动作捕捉的追踪技术
所有玩过早期三维游戏的读者,或者体验过比较粗制滥造 VR 内容的读者,可能都很好奇,为什么这些游戏或者 VR 场景中的人的动作都那么僵硬和奇怪,不像真人的运动呢?
难道虚拟空间中的人物运动,不应该是像好莱坞大片里面一样,拥有极其真实的肢体动作和面部表情吗?
其实这些都是由技术和成本限制导致的。
众所周知,人类是由 206 块骨骼和大量的肌肉、韧带组成的一个运动系统,很多时候,一个简单的动作,都会调动人体内成百上千的肌肉群去完成,也就造成了人类动作巨大的复杂性和差异化。
而无论是早期的三维游戏,还是今天的很多小成本制作的 VR 内容,都受限于成本,很难做到非常精细和拟真。
现实中,如果仅仅用三维建模工具软件或者三维美术人员徒手去编辑角色动作,其真实感和拟真度,必定与真实世界中的人物、动物等的肢体运动有巨大的差距,这也就是为什么我们看到这些小制作内容的动画和动作很假、很僵硬的原因。
而那好莱坞大片里面的虚拟角色是怎么做到形如真人的高拟真度的呢?
仿真界的一个最重要的原则就是:“你永远不可能比真实世界更像真实世界!”直接从真人身上获取数据就行了。
所以,为了保证高保真度,对于动作真实感要求很高的影视工业,一直不计成本地使用专业的多点动作捕捉系统,采集真人的运动数据,并映射到动画特效里面的虚拟角色身上。
而采集这种真实数据,结合高真实感的形象绘制,也让好莱坞大片中的角色一个个看起来栩栩如生,如同拥有真实世界中的生命一样。
影视行业通过在拍摄场内布置大量的高速、高精度摄像设备,并在动作演员身上关键骨骼节点布置反光标记点,来进行真人或者动物的骨骼动画采集,并由此生成虚拟角色的动作,让虚拟世界中的人物动作无限接近真实世界。
如今,为了保证影片中角色的真实感,很多虚拟角色的面部表情,也使用这种高精度和高速的采集设备进行面部动画采集。
而由于需要非常高的采集速度,一般时延小于 5 毫秒,及非常高的精度,即在典型室内空间达到毫米级,因此影视行业一套动作捕捉系统,往往需要数十个高精度摄像头和一个算力较强的数据处理服务器。
即使成本高达上百万元,也不能够做到实时输出,需要大量的后期处理、编辑等工作。
前面章节中提到的,工业仿真中所使用的头部追踪交互技术,最开始的主要技术流派,就是相当于本节所提到的虚拟影视动作采集系统的一个功能简化版本。
它只需要简单地追踪两个关键节点,即头部/眼部,以及交互用手柄的位姿即可。通过减少采集点数量,达到了能够支持实时交互采集的运算速度。
但是,由于工业和影视领域整体需求量的限制,在之前整个三四十年的发展历程中,无论是流行的高速红外摄像头的 Camera Based Tracking 方案,还是其他一些诸如电磁式追踪(如 Seventh Sense)、超声波追踪、惯性式追踪的设备,其价格都仍然处在十几万元到几十万元不等。
除去电脑动画、医疗手术导航、工业仿真等个别领域,很难普及到给普罗大众提供元宇宙方案的水平。
而进入 2010 年,随着智能手机相关的一系列技术的成熟和大众化,VR 领域的从业者们又一次燃起了将高沉浸感交互设备大众化的希望。
下面就要讲到,今天我们每个人都能够体验到的高沉浸感 VR 交互到底是由哪些技术支持和提供的,它们到底是如何研发演进的,又能给今天的元宇宙从业者们提供哪些工作机会?
二、元宇宙时代的三维空间定位技术
为了既能像影视动画捕捉一样精确地获取 VR 使用者头部和手柄的位置,又能将设备的成本降低到普通消费者能够接受的水平,即整体成本在几百美元,科研界和产业界尝试了各种各样的方法。
第一种方法最简单。近十年来智能手机端的产业红利,使得微型的惯性传感器(IMU)的体积、功耗和价格都迅速降低。
尤其是为了保证智能手机的应用,微电机系统(MEMS)技术加持的微型惯性传感器,不仅成本能做到 1 美元的量级,其体积和功耗都小到能够装到智能手机上。
而借助如此便宜和轻量化的硬件,2015 年、2016 年前后,诸如 Google Cardboard、三星 Gear VR、暴风魔镜、Google DayDream 等第一代盒子 VR 和第一代一体机 VR,都能够用极低的成本、功耗和算力实现三自由度的空间交互。
但是由于小型 MEMS IMU 方案的技术局限性,其在感知角速度的时候非常准确,但是对位移加速度的测量经常会有不可控的漂移和误差,导致微型 IMU 无法进行单独而精准的六自由度测量。
这种不完全的三维空间交互能力,以及其带来的眩晕感和舒适度问题,让第一代单纯使用 IMU 的 VR 空间交互方案直接被用户淘汰。
第二种方法,就是 HTC Vive 在 2016 年推出的“光塔”定位技术(Lighthouse)。
这是一种十分巧妙的技术,之前是由全球著名的游戏平台商 Valve 开发,可以说在整个 21 世纪头十年,无论是从时延还是精度,该技术都是体验最好的 VR 光学追踪和定位方案。
“光塔”系统的外置部件由两个基站构成,每个基站里都有一个红外 LED 阵列和两个转轴互相垂直的旋转的红外激光发射器,其转速为 10 毫秒一圈。
基站的工作状态是这样的:20 毫秒为一个循环,在循环开始的时候红外 LED 闪光,前 10 毫秒内 X 轴的旋转激光扫过整个空间,Y 轴不发光;
后 10 毫秒内 Y 轴的旋转激光扫过整个空间,X 轴不发光。
而在 VR 头盔和手柄端上安装了很多光敏传感器,LED 闪光之后就会同步信号,然后光敏传感器可以测量出 X 轴激光和 Y 轴激光分别到达传感器的时间。
这个时间正好是 X 轴和 Y 轴激光转到对应位置给定的到达传感器的角度的时间,于是传感器相对于基站的 X 轴和 Y 轴角度也就可以计算出来。
分布在头显和控制器上的光敏传感器的位置也是已知的,于是通过各个传感器的位置差,就可以计算出头显的位置和运动轨迹。
在当时,“光塔”系统拥有几个主要技术优势:第一个优势是其需要的计算能力非常小。
在传统的多摄像头光学追踪定位系统中,一个光学系统需要进行成像,然后程序就需要通过图像处理的方法来将成像中的标记点(Marker)分辨出来。
成像的细节越丰富,需要的图像处理计算能力就越高。所以红外摄像头比单色摄像头简单,单色摄像头比彩色摄像头简单。
“光塔”技术使用的仅仅是时间参数,那么它就不涉及图像处理,对于位置的计算在设备本地就可以完成。
第二个优势是其时延也很短,计算能力需求高就意味着时延会长:图形处理的大量数据要从摄像头传输到电脑中,再从电脑传输到头显上,就会增加时延。
而“光塔”技术可以直接将位置数据传输到电脑上,省略了从摄像头到电脑的高数据传输的步骤。
第三个优势是系统中追踪物体的数量理论上没有上限。
如果是光学摄像头的话,系统内的跟踪标记点数量就有一个上限,数量多了无法处理。
类似地,北京冬季奥运会上追踪数百名手持和平鸽的少年所用到的追踪系统,需要英特尔中国研究院专门的研究人员开发,用服务器级别的算力处理,这些都可以用来作为科技亮点来宣传,因此不难估计它的高成本和高难度。
“光塔”技术基站本身不处理任何信息,所有数据由跟踪传感器从本地获取,这是一个天然的分布式系统。
这套系统可以很方便地支持两个甚至更多玩家轻松地在一个场地里同时体验和互动。
2016 年,“光塔”技术跟随 HTC Vive 推出的时候,由于其需求算力非常小、时延短、追踪物体无上限、追踪精度高等众多优点,在之后的 4~5 年中,一直是主机类 VR 最佳的头部和手柄定位方案,在性能、可靠性、精度、体验上都碾压其他厂家的各种头部交互方案。
当时整个系统售价大概是 699~999 美元,这种革命性的技术也把高沉浸感的头戴式 VR 交互真正第一次引入到消费类电子产品中。
虽然“光塔”方案也有很多无关紧要的小缺点,如手柄尺寸问题、多系统干扰和扩展性问题等。
但是它还有一个对于消费类电子产品最致命的缺陷,就是其系统部署需要在环境中安装两个独立配置的“光塔”设备。
这种复杂的操作导致用户很难做到像看电视、用手机一样简单地使用它。
这也就限制其技术仅仅能够用在主机 PC VR 领域,而且是小众发烧友的玩乐工具。
这导致在后面的移动 VR 和 AR 时代,这种灵光闪现的技术没有办法再发展。
后来的事实也证明了,每年几十万台的销售量既撑不起生态,也不可能给企业带来足够的盈利和竞争优势,从而难以吸收更多资本和研发力量迭代改进并完善产品。
第三种方法是在计算机视觉中使用图像处理,虽然能够依托于现有智能手机普及所带来的图像摄像头的大规模普及和低成本化,但它也是算法复杂度最高的一种方法。
第一代主机 VR 中的另外两个主要产品,也是在 2016 年前后发布的 Oculus DK2、CV1 系列,以及索尼的 PSVR 一代,都使用了这种方法——当时被命名为 Constellation(星座)定位系统。
顾名思义,就是在需要被追踪定位的头显外部和手柄上,布满红外发光二极管,并以一个固定的模式进行发光闪烁,形如夜空中闪烁的“星座”。
而系统外部,通过简化布置一组摄像头,达到大幅降低系统成本和算力需求的目标。在 2016 年前后,“星座”方式的空间定位系统,虽然在刷新率/时延(2.7 毫秒 VS 16.7 毫秒),以及定位精度和适用范围上,都不如 Valve 研发的“光塔”系统,导致当时的 Oculus VR 和索尼 PSVR 的用户体验和眩晕感等各方面都不如使用“光塔”系统的 HTC Vive。
但是,这种方案仍然获得了市场中更大的销量,例如 PSVR 第一代当时年销量达到 200 万台。
另外,由于当时 PC 和主机系统的算力限制,以及人们对于视觉定位系统的探索还在初级阶段,当时 Oculus 摄像头初代的分辨率只有 752×480,且为了降低运算量,其处理内容为不带 RGB 颜色的新的 Y8 灰度图。
在今天看来,这种系统的追踪定位精度是跟不上用户体验需求的。
“星座”方法整个系统的简单、方便,适合大规模量产,让其成本显著低于“光塔”系统。
也让 PSVR 和 Oculus CV1 等的售价,显著低于 HTC Vive,也正是因为如此,获得了更多的销量和用户。
通过充分使用智能手机时代的一些技术红利,如更加廉价的摄像头模组和 LED 光源系统等,大幅度助力了 VR 领域技术发展和到 C 端用户的普及。
而且伴随着手机 AR 技术所使用的图像处理和识别技术的发展,相比于“灯塔”系统,原本各方面性能落后的“星座”技术这种基于摄像头的追踪交互技术路线,在接下来几年的一体机 VR 和 AR 时代,逐渐成为更加主流的方向,并促成了整个元宇宙领域第一个千万级别销量产品的诞生。
而到底是何种原因导致原本性能劣势的技术有了更大的发展和应用呢?
这就要从追踪方式的由内而外和由外而内说起。
三、“由内而外”还是“由外而内”
游戏必然变得更加移动化。所以,在 2015 年左右,VR 领域中真正的有识之士就已经预测到,未来能够引领 VR 发展的是类似于智能手机、不需要连接主机和电源的 VR 设备,也就是我们前面所说的 VR 一体机。
它自带移动计算芯片、存储、交互设备,而无须连接主机和外接电源,能够像智能手机和移动游戏机一样,跟着玩家各处移动。
对比 VR 一体机,去架设在外部房间中或桌面上的“光塔”和摄像头,将会是非常不方便的一种体验。
在移动时代,个人穿戴系统的移动化,逼迫着各路 VR 厂商想办法去把头部定位和追踪设备尽可能做得更小、更集成,才能提高易用性。
正因如此,原本不太成熟的、精度也不够好的由内而外的追踪技术,在消费类电子用户需求的牵引和大厂资本的主推之下,走上了技术开发和成熟的快车道。
从 2019 年开始,各个大厂,尤其是以当时的 Facebook 为代表的互联网厂商,开始将更多的精力投入到由内而外的追踪定位技术之上。
据报道,Facebook 平台相对于一些更为年轻的社交平台,如 Tik-Tok 或 Snap,已经明显失去 15~25 岁人群的兴趣和关注。
如果要布局下一代青年人日常使用的硬件,那必然是某种今天个人移动设备的延伸,也就是将来替代智能手机的产品。
如果 AR 眼镜还太遥远的话,至少应该是可能独立携行,不依赖外部电源和数据的 VR 一体机。
而一体机时代的由内向外的追踪定位技术,除轻量化之外,其与将来的 AR 眼镜所使用的视觉计算原理、硬件配置等,都具有高度的同源性和相似性。
以今天热销的,全球销量刚刚达到 1000 万台的 Meta Quest 2 这款 VR 一体机头显为例,在硬件上,为了能够覆盖更大的角度,保证对空间追踪定位和手柄追踪的稳定性,Meta Quest 2 使用了覆盖角度更分散的 4 个对外的摄像头,来代替前几年行业主流 VR/AR 头显的双摄像头方案。
这样就能保证,即使在玩家手部大幅度极限运动的时候,仍然保证对手柄跟踪不丢失。
而且,加大感知摄像头视场角 FOV 的方案,让玩家即使在面对若干白墙的这种低纹理特征的难识别空间,都能很好地计算出头部所在位置,来支持精确的实时交互。
同时,虽然受限于今天惯性传感器的位移漂移特性,以及移动芯片视觉处理算力的不足,今天针对 VR/AR 系统的空间定位 SLAM 方案,使用了同时结合视觉和惯性两方面传感器输入的 VI-SLAM(视觉惯性的即时定位与地图构建)技术手段。
两种传感器的输入相互辅助和补充,利用了惯性传感器刷新速度快、算力依赖度低的优势,以及视觉传感器数据鲁棒性好和精度高的优势,也同时利用于 VR 一体机主芯片中的高速 DSP 进行图像和视觉处理的硬件能力。
截至 2022 年 3 月上旬,由内而外的追踪定位系统的精度,尤其是几家头部厂商的产品,如 Meta Quest2、微软 Hololens 2 等,已经能够达到不亚于上一代由外而内追踪定位技术的精度和响应速度。
用了仅仅 4~5 年,VR、AR 系统交互技术的便携性就被提升了一大截,让人们距离实现真正的元宇宙中所期待的自由交互又进了一步。
通过十余年的发展,追踪交互技术由昂贵的影视专用到低成本普及,由需要复杂的大空间部署到简单的能够集成到头显上,在用户的需求和产业资本的推动下,一步步走到了类似智能手机人手一台的水平。
其单品销量也在 2021 年年底达到了 1000 万台,已经非常接近黑莓手机面世初期的销量。
那既然对于元宇宙三维体验最核心的交互定位技术已经如此成熟了,我们是否今天就可以进入元宇宙时代生活了呢?
恐怕问题并没有那么简单。
通过分析 Meta Quest 2 产品被购买后的使用时长和使用频率,不难发现,其实绝大部分用户更多是在疫情期间,被封在家中需要一个新奇的设备而进行的尝试,其使用时长和使用频次都距离智能手机甚至是主机游戏机相差甚远。
那到底是什么原因阻碍了今天 VR 头显的普及和高频使用呢?
这就要从人们体验沉浸空间时的一个由来已久的问题来展开分析和研究,这个问题就是“运动眩晕症”(Motion Sickness,后文简称晕动症)。
四、运动眩晕:制约进一步发展的瓶颈
今天,虽然 VR 硬件已经大规模装机售卖,但是仍然存在一些问题,尤其是随着虚拟环境沉浸感的提升,用户在使用 VR 设备时遇到的这类问题愈发明显和严重。
以目前主流的 VR 设备应用为例,长期使用会带来类似晕车、晕船的眩晕症状,例如恶心、头痛、眼花、方向错乱等。
这些症状使得 VR 设备无法长期稳定地使用,大大地限制了 VR 设备体验感的提升。
近年来国内外学者针对 VR 设备产生晕动症的现象开展了大量的研究工作,主要集中在三个方面:
(1)VR 晕动症产生原因;
(2)VR 晕动症评测方法;
(3)VR 晕动症评测系统搭建。
通过大量的研究和应用实践,人们发现虚拟场景的运动会对 VR 晕动症产生影响,旋转的虚拟场景比静止的场景造成的晕动症更加严重。
同时人们还发现,个人因素对 VR 晕动症的影响低于虚拟场景对 VR 晕动症的影响。
然而造成眩晕的原因是多种多样的,不仅仅是由旋转和个体差异造成的。
讲到这里,大家可能会想到,当初使用立体眼镜在影院观看的 3D 电影的年代。
虽然我们可以在特殊影院(如立体环幕影院、球幕影院等)获得更高的临场感和立体视觉效果,甚至达到景物、角色从屏幕中跃然眼前的体验。
但是,总有一部分人会在观看时感觉眩晕和恶心,就像晕车一样。
包括后来的裸眼 3D 显示屏,在不合适的角度或长时间观看,也会造成一定程度的眩晕感。
这些 VR 时代之前的眩晕问题,其实从最根本的原理上,跟今天 VR/AR 领域所遇到的眩晕问题非常相似。
从本质上说,人体的感官系统是一套经验学习式的神经网络系统,我们的大脑和神经系统通过各种感官,包括视觉、触觉、力觉、加速度(耳蜗前庭),采集外界的信息,并综合处理这些符合自然世界中的输入规律的信号,用来指导我们的行动,进行对外界的反馈。而作为已经经过多年人生“训练”的人体的感知和神经系统,我们的身体已经习惯了符合人体所处物理空间的自然规律带来的信息输入。
一旦处在另外的运动状态,如高速乘车或乘船,导致信息输入跟人体经验不符合,就会让经验神经系统给人体发出信号,告知身体处于不正常状态,从而引发一系列身体自我保护机制的应激反应,如眩晕、呕吐等。这本质上是身体的自我保护机制。
大家仔细对比一下生活中的一些场景,比如晕车、晕船、飞行员选拔时的各种旋转测试等,这些场景都是因为我们视觉的输入和耳蜗内前庭传感的加速度产生了信息不匹配,不符合我们已经成型的神经系统的规律,身体才会出现应激反应。
同样,很多人在聚精会神观看立体画的时候,也会产生眩晕,这是因为当视觉输入和我们大脑处理视觉的经验相悖情况下,也会导致我们身体的应激反应。
为什么在家玩手机的时候不容易眩晕,而观看 IMAX 影院或者乘坐环球影城的黑暗乘骑、沉浸式过山车的时候就更容易眩晕呢?
这里还涉及一个因素,就是当你周围的环境越大比例地处于真实世界之中,即你的神经系统所习惯的环境的时候,输入到人体感官的信号与真实物理世界经验不一致的地方就越少。
而你越大比例地将感官沉浸到虚拟世界中的时候,所有输入给你感官的信号相对而言越有可能更多地出现与真实世界不一样的特性,而让你的感官输入不同于平日生活的经验,就会导致这种不适和眩晕。
很不幸的是,头戴式显示设备几乎完全覆盖了人的视觉输入,而产生人类 80%以上信息输入的视觉系统,任何与真实世界微小的差别和不同,都可能刺激人类敏感的神经系统,其眩晕问题比盯着显示器或者手机的游戏玩家要严重得多,毕竟盯着显示器的玩家用余光就能看到真实的世界。
因此,沉浸感越高,反而越难以精确地模拟真实世界,越容易造成眩晕。
从 2015 年第一代 VR 产品投入市场开始,用户反馈的眩晕和舒适性问题就驱动了全球所有厂商的研发力量,包括增大屏幕分辨率、降低运算和显示时延等,这些肉眼可见的物理指标在这几年随着资本的投入、产品的迭代不停地前进和提升。
在 2020 年已经能够实现单眼 2048×2048 的线分辨率和 90~120 赫兹的显示刷新率,硬件和显示层面导致的眩晕和不适已经较之前大幅减弱了。
然而,对于很多运动学导致的深层次眩晕,仅仅通过提升硬件参数,比如空间交互的准确性与实时性,并不能很好地得到缓解。
在第一代消费级 VR 头显面世和应用的过程中,当时使用“光塔”的 HTC Vive 在用户体验上明显好于使用“星座”视觉定位的 Oculus CV1 和索尼 PSVR,相对的眩晕感也要轻得多。
在显示刷新率、运算能力、分辨率、视场角等方面差别不大的情况下,其核心原因就是“光塔”系统在精度、响应速度和准确度上都更好,从而带来交互效率和显示内容更加接近真实世界的物理规律。
而意识到这个问题之后,Facebook 等大厂持续不断地研发投入,终于在 2020 年推出的一体机 Quest 2 中,通过 IMU 和 Camera 混合的 VI-SLAM 技术,达到了不亚于当年“光塔”技术的交互精度和响应速度。
很可能在不久的将来,只有“加速度感知”这个问题会是体验和眩晕层面的最后一只拦路虎了。
最近几年,大量体验 VR 游戏和内容的玩家们一定会发现一个规律,从 2011 年、2012 年 Oculus 初代开始发布时,有大量的过山车、奔跑射击类游戏;
发展到今天,主流游戏更多地以节奏光剑或者射箭、塔防类游戏为主。
通过这些年的变化,大家会发现一个规律,就是越来越多的 VR 游戏在想办法躲避玩家在空间上的位置移动,而这也是今天人类想尽办法且使用了各种技术手段都暂时还未能得到很好的解决的一个问题。
所以今天,面对技术更加超前和复杂的元宇宙,相信需要更多的研发投入和尝试,才能逐步解决这个问题。所幸的是,整个科研界和产业界都已经意识到技术瓶颈所在,从 2017 年开始,国际相关领域顶级学术会议,如 IEEE VR、SIGGRAPH 等,都有大量的研究尝试解决眩晕和用户体验的问题。
头部的硬件和平台企业如 Facebook、微软、苹果、谷歌等,也召集了大量的顶尖产业科学家进行相关的研究和产品化。
生态链上的关键企业,如高通、英伟达、Epic Game 等,也分别在自己擅长的芯片、通信、渲染等领域有针对性地加大投入力度,从各个角度解决各种时延、视差和运动问题,带来更好的 VR 产品层面的体验。
相信不久的将来,当用户体验和眩晕问题得到解决的时候,元宇宙的生活就会跟着人手一台的硬件,带领大家走入线上那个美丽纷繁的虚拟世界了。
而那个时候,我们肯定也会有更进一步的高要求:
不仅希望能够观看并与虚拟世界互动,更希望能够用在真实世界中生活的方式去体验虚拟世界、进行实物感的触摸等,甚至是用思想和意识来交流和分享,并自主控制虚拟世界中的生活。
接下来,我们将介绍一系列探索发现这一切新奇的感知、建模、显示和交互技术。
第五节 下一代感知交互技术:真三维显示、触觉嗅觉味觉交互
一、视网膜投影技术
视网膜投影技术,顾名思义,就是跳过外部空间放置物理显示屏幕或在眼前设置虚拟的近眼显示虚像这样的方式,直接将需要人眼视网膜接收到的影像,通过一定的光路投影技术,投射到人眼的视网膜之上。
这样做可以让用户同时聚焦在不同图像平面或焦深上,有可能大大减轻用户的疲劳和视觉眩晕。
当然,由于视网膜投影技术还在科研界探索的阶段,其技术稳定性、可靠性、精确度、安全性等还有待于持续探索和提升,尤其是需要在处于开发和产品化中的眼动追踪技术成熟稳定后,才能给视网膜投影设备一个眼球位置输入,以进行准确的视网膜和眼球主光轴定位。
其技术成熟还需要比较长的时间和一些支撑技术,但是相信在不久的将来,这种大幅减少光学设备体积、功耗,并能解决“辐辏”视觉问题的技术,一定会在元宇宙显示技术中成为主导。
二、光场显示技术
如前所述,我们今天看到的所有显示内容,都只是显示在二维平面上,如电视、电脑、手机显示屏,即使 VR、AR 所使用的近眼显示光学所成的虚像,也是以二维图像的形式进入人眼之中的。
其根本原因是,人类观看世界所用的双眼是二维的光学成像系统,视网膜上的视觉感知细胞本身是以一个“面”的方式排列分布并进行感光工作的。
而真实世界却是一个三维世界,我们从任何一个角度观看场景或物体,其展现出来的光照效果都是根据不同的观看位置和视角而不同的,而人类大脑和神经系统也只有观察到这种跟随不同视角变化的显示,才会认为这是一个真实的世界。
那么到底如何才能让人类在虚拟世界中看到的内容真正达到真实世界的效果,让人完全沉浸在虚拟的元宇宙之中呢?
这就要提到从 20 世纪 90 年代末期发展至今的“光场”技术。
物理学里面对于“场”(Field)的定义是指在某种空间区域,其中有一定性质的物体能对与之不相接触的类似物体施加一种力。
比如引力场里面的大质量的地球会向我们施加引力,电场里面会有电荷的引力和斥力,磁场中会有磁力,等等。
回到人类观看物体,或者观看世界的光照和显示模型中,我们会发现,其实人眼所感知的光线,就是物体朝着周围发出的光线对观看者的影响,只不过这种施加的“力”不是引力,而是照射过去的光亮度。
不同于引力或者斥力,数学上测量的光场也不是各个方向都相同,而是每个角度看起来有可能各不相同。
如果能把这个光照的“场”记录下来,并重现给观看者,就可以完全还原和再现一个与真实世界一模一样的观看效果。
这样的多维记录并再现真实世界的“光场”技术便应运而生。
针对现阶段各种显示模型的二维属性,光场显示模型将体验和效果拓展到了三维空间中所有跟观看者有关的光线传播之中。
虽然观看的时候还受限于现有硬件技术,需要使用二维的显示设备加上动态的图像序列来让体验者观看光场的环境,但是其数据记录和显示模型可以记录整个可观看空间,已经非常接近完全真实的世界。
而且利用光场技术结合现有的显示设备,不需要在空气中做投影,也可以得到几乎完全相同的显示效果。
虽然光场技术早期的一些产品化的尝试,如斯坦福大学计算机科学家吴仪仁(Ng Ren,新加坡裔)发起组建的创业企业 Lytro 所推出的光场相机等产品,受到当前数据处理能力的限制,并没有达到很好的销量和市场认可度,光场技术也经历了最近十来年的不断沉浮。
但是,随着近几年 VR、AR 领域的重新火热和元宇宙概念的兴起,光场这种高真实感还原真实世界的显示技术,又一次成为各大厂商关注的焦点。
谷歌在近期推出了著名的 Starline 项目,用来提供全沉浸感的视频会议系统,其本质上是一种实时的双向交流系统,可以让两个人即使在远距离交互,也能体验到面对面的对话体验。
通过采集参与者评分(如呈现度、注意力、交互性、参与感等方面)、会议参与感和观察到的非语言行为表达(如点头、眉毛运动等神态动作)等各种数据,其立体视觉和沉浸感远优于现有的 2D 视频会议的远程呈现系统。
这套系统的所有设计元素都围绕最大化实现音视频的保真度和真实感观体验,包括物理布局、照明、人脸跟踪、多摄像头采集、麦克风阵列、多媒体流压缩编码、扬声器输出和透镜显示。
它可以实现关键的 3D 视听维度,包括立体视觉、运动视差和空间化音频,并能实现全方位的交流体验,如眼神接触、手势和肢体语言,使用者不需要佩戴特殊的眼镜、麦克风、耳机。
系统由头部跟踪自动立体显示、高分辨率三维采集、播放系统,以及网络传输组成。
另外,其技术点中也包括一个新的基于图像的几何融合算法,在空间中计算出使用者定位并采集需要显示的形态。
通过科研论文中对于 Starline 项目的简单功能介绍和布局描述,以及系统布局示意图,可以看到,虽然它今天还没有连接 VR、AR 头戴式显示设备一起使用,但是作为光场技术最新的实践者和实现系统,它的很多诸如表情动作采集、多视角光场采样等,很快都会运用到谷歌之后将推出的一系列元宇宙产品和硬件之中,能够迅速提升未来元宇宙空间体验的真实感和拟真度。
有兴趣的小伙伴,可以进一步去网上搜索计算机图形科学家 Pat Hanrahan 和 Marc Levoy 在 1996 年计算机图形国际会议上发表这种技术的初创论文进行研究和学习。
相信深度了解和掌握光场技术的小伙伴,能够在未来元宇宙产业落地和爆发过程中,轻松找到一流企业中高薪的岗位。
三、其他感官交互技术:力觉、触觉、嗅觉、味觉等交互
类似于视网膜投射、光场显示技术等,人类在元宇宙时代,不仅仅从视觉、听觉这两个最主要感官方向提供和接入元宇宙的交互入口,研究了一系列显示设备,如屏幕、VR 头显、AR 头显等,用语音声学设备来满足人们在虚拟世界的需要,同时也在不停地尝试着从其他人类感官方向,如触觉,甚至是嗅觉和味觉来提供虚拟世界的真实感官。
前文提到的模拟驾驶时的飞行座舱底部的六自由度平台,其作用就是通过模拟重力和各个方向的加速度,欺骗座舱内的学员,让其产生飞机起降、爬升、转弯等方面的力学错觉,而误以为自己处在真实的飞行之中。
后续的主题乐园中的各种飞行影院、黑暗乘骑过山车里面的乘骑设备的运动,其实提供的也是这种力觉和运动反馈的一个简化版本,用更低的成本让更多人体验到失重、超重等。
近十来年,随着 VR、AR 技术的市场化和普及,为了适配个人头戴式显示设备带来的个人元宇宙体验,市场上又大量涌现了一批新一代的 VR 动感座椅。
其本质也是通过相对简化的三自由度或四自由度平台,提供接近大型飞行模拟器的空间加速和运动体验效果。
相应地,由于针对个人进行优化设计和低成本的产品设计趋向,现在的 VR 运动座椅可以让每一名体验元宇宙游戏中飞行体验的用户,仅以接近发烧级电竞系统的价格,实现重力、加速度等虚拟世界的力学感官体验。
相信在不久的将来,产业进步很有可能将这种个人力学体验设备的价格降低到类似于 VR 头显或 AR 眼镜的水平,“飞入寻常百姓家”。
另外,除了给人体提供运动学感官体验之外,如在医疗手术模拟、康复训练和高端工业仿真训练中非常普及的力反馈设备 Haption、Haptics 等,还可以通过给予操作者与真实操作几乎相同的动态反馈力,来模拟在真实的手术操作、精密部件装卸操作中的同等力学效果,再结合高沉浸感的显示系统,完全可以在模拟训练中以假乱真。
只不过,由于在技术实现上还不能真实做到实体上模拟被触碰物体的硬度和物理结构,所以只能通过高频传感器采集(大约 1000 赫兹速度),高速刷新采集使用者输入的力度,再根据虚拟世界中计算出来反馈力,给操作者一个反方向的力,来模拟触碰、操作等反馈力学特征。相对于触控模拟的力觉特性,很多国外研究机构研究电磁方式模拟物体表面的光滑度,模拟物体表面温度变化等,来提供模拟虚拟世界的“肤触觉”,也就是皮肤触感。
虽然现阶段的“肤触觉”研究还很初级,但相信在不久的将来,我们就可以看到相关品类的产品投放市场。
同样,大家在主题乐园黑暗乘骑里面体验的喷水和烟雾效果,也是 VR 领域对味觉和嗅觉模拟的尝试。
例如,在迪士尼的“飞跃加州”项目中,从加州的树冠和果园上空飞过时,位于座位附近的气味设备会准时喷射相应味道香型的气味剂。
国内融创乐园的项目如“飞跃江西”,在飞跃鲜花烂漫的山顶和山谷时,也会根据对应的植物香型进行气味模拟。
但是由于每次模拟都需要消耗特定量的化学物质,而不能像今天的计算机运算和现实一样仅仅消耗电能即可完成。
因此除了在一些有运营能力的乐园或者主题娱乐场所,有气味仿真设备商业化应用之外,现阶段的 C 端用户层面还没有能够普及的气味仿真产品形态。
但随着 VR 技术在视觉、听觉、触觉等方面逐渐成熟后,作为元宇宙感官交互刚需之一的嗅觉、味觉系统,应该也会像电子烟一样,成为每个人都可以体验的交互形态。
第六节 终极目标:脑机接口
1999 年 3 月 31 日,全球同步上映了一部商业影片《黑客帝国》,影片中描述了一名年轻的网络黑客尼奥发现看似正常的真实世界实际上是由一个名为“矩阵”的计算机人工智能系统控制的,尼奥在一名神秘女郎崔妮蒂的引导下见到了黑客组织的首领墨菲斯,三人走上了抗争“矩阵”征途的故事。
影片中,人类既不是通过 VR 头显被接入虚拟世界,也不是被任何物理的枷锁限制了人身自由,而是通过一些插接到大脑和脊柱上的电极和管子,接入到了虚拟世界中。
也正是这些直达大脑和神经中枢的接入设备,隔绝了人类对真实世界的感受,成为生活在人工智能“矩阵”所创造的虚拟世界中的奴隶,用身体为机器们提供能源。
当然,科幻影片为了营造感官刺激和冲击力,有意编造比较恐怖和阴暗的未来。
但是真实世界中,所有的感官输入最终都是通过神经电信号输入给人类的大脑及神经中枢。如果真的如影片中所设想,有一种设备或者技术能够直达我们的大脑及神经中枢的话,其实是可以做到影片中所描述的沉浸状态的。
而这种技术,就是我们人类已经研究了超过 40 年的脑机接口技术。
只不过这种技术的研究和进步,主要是为了帮助人类解决一些疾病和仿生学等问题,而不是为了限制和控制人类。
这节就让我们简单了解一下,如今被全球顶尖科技资本高度关注的这种前沿技术到底是什么样的,以及有哪些特点和用户。
脑机接口技术(BCI)是指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换。
这一概念其实早已有之,但直到 20 世纪 90 年代后,才开始有阶段性成果出现。
在学术界眼中,有时候脑机接口也被称作直接神经端口(DNI)。
如果按照 DNI 的定义,其实很多跟神经信号输入输出相关的领域,也都是脑机接口研究的范畴。
事实上,大部分研究方法和使用的技术、设备也都是非常相似的。
例如,前面提到的肌电信号采集和交互技术,就属于利用人类神经信号给计算机进行输入;
而人工耳蜗、人造视网膜等神经修复类技术,都是通过人造机器系统生成输出信号传到人类的神经系统,解决人体感知的局限性。
今天,我们经常会看到很多关于脑机接口的热点新闻,比如 2008 年匹兹堡大学神经生物学家宣称利用脑机接口,猴子能操纵机械臂给自己喂食;
又如 2020 年 8 月 29 日,埃隆·马斯克的脑机接口公司找来“三只小猪”向全世界展示了可实际运作的脑机接口芯片和自动植入手术设备。
其实研究可以回溯到 20 世纪 70 年代甚至更早。
当时,科学家施密特(Schmidt)、费茨(Fetz)和贝克(Baker)领导的小组证实了猴子可以在闭环的操作性条件作用后快速学会自由地控制初级运动皮层中单个神经元的放电频率。
在 20 世纪 80 年代,约翰斯·霍普金斯大学的阿波斯托洛斯·乔治普洛斯(Apostolos Georgopuolos)找到了猕猴的上肢运动的方向和运动皮层中单个神经元放电模式的关系。
他同时也发现,一组分散的神经元也能够编码肢体运动。
进入 20 世纪 90 年代之后,随着飞速发展的计算机技术和生物神经技术,脑机接口技术得到了长足的发展。
全世界有大量的相关领域高校和研究群体已经能够使用神经集群记录技术实时捕捉运动皮层中的复杂神经信号,并用来控制外部设备。
在真实世界中,每年的世界机器人大赛上都会有 BCI 控制类比赛。
赛事所使用的脑机接口技术属于非侵入式。选手们使用一种叫作“脑电帽”的设备,这种帽子呈网状结构,帽子上布满采集脑电波信号的传感装置。
比赛之前,选手们会戴好脑电帽,为了保证脑电帽更好地采集到脑电波信号,工作人员会拿着类似注射器的装置,向脑电电极内一一注入导电胶。
据说脑机比赛项目表现最好的选手可达到 0.4 秒钟输出一个字符的速度,已经比很多人用手打字要快。
虽然今天脑机接口技术还不够成熟和稳定,我们能够看到的 BCI 控制类比赛比的也还不是脑机接口技术本身,更多是比选手使用脑机接口技术的技能。
但如果将来有一天,类似的技术足够廉价和稳定的话,每一个通过脑机接口接入计算机或虚拟世界的用户无须动手,就能够在手机上操纵软件、输入文字、与朋友聊天。
或者用户甚至也可以仅仅使用意念,就能在虚拟世界进行真实世界人类所有的行为和操作。
再往后,元宇宙就真的要成为创意、思想、意识的协作网络了。
除了上述利用人类脑电波输出方式,控制“人对机”的交互之外,还有很多非常成功的利用“机对人”的输入来修复和增强残障人士感官的技术。
例如,人工耳蜗是迄今为止最成功、临床应用最普及的脑机接口。
截至 2006 年,世界上已有大约十万人植入了人工耳蜗,从而在一定程度上恢复和改善了被损失或原本不健全的听力。
另外,今天也有很多科学家在尝试进行视觉重建的研究,原理就是把光转变为电信号直接刺激视网膜,进而产生视觉。
当然,这种利用光电信号刺激视觉神经的技术,还需要患者自己的大脑中有视觉这个概念。
也就是说,科学家们今天还只是试图让非自然失明的盲人重新看见世界,而对于先天性的、没有见过真实世界的盲人,还没有太好的办法。
无论是在听觉上的努力,还是在视觉系统上的努力,这些今天用来服务残障人士的科研技术,当其发展到一定程度之后,也都可以用来服务于正常健康的人类,用来输入增强的虚拟世界,也就是元宇宙的视听信号,从而把人类的主要感官都隔绝于真实世界,并放入虚拟世界中。
这一路径非常类似于智能硬件和 VR 领域中曾经一路发展过来的其他技术,如无线通信、眼动追踪、近眼显示等,它们最开始在技术昂贵和不成熟的时候,先去服务一些对于成本承受度高的残障人士或特定人群,随着技术的成熟和普及,再慢慢推广到一些公众场景,直到最后集成到人手一台的消费类电子产品中。
相信未来,人们在体验元宇宙时所使用的终极技术形态分别会是:人类通过神经信号对计算机的输入——“运动功能”的脑机接口,以及向人类神经系统输出虚拟世界信号——“感官功能”的脑机接口。
而同时拥有这种双向的输入与输出后,人类自然能够畅游在虚拟的元宇宙中,也可以通过每个人自己的行动来影响、改变和创造自己的那个元宇宙。

