大数跨境
0
0

专题丨混合现实视频透视技术关键挑战分析

专题丨混合现实视频透视技术关键挑战分析 信息通信技术与政策
2024-08-12
1
导读:向潇,赵蕾
※  信息社会政策探究的思想库  ※
※  信息通信技术前沿的风向标  ※


作者简介


 向潇

中国信息通信研究院信息化与工业化融合研究所工程师,主要从事虚拟现实、新型显示、智能终端等方面的研究工作。

赵蕾

甬江实验室新型显示与感知研究中心研究员,主要从事显示光学、虚拟现实、增强现实等方面的技术研究工作。


论文引用格式:

向潇, 赵蕾. 混合现实视频透视技术关键挑战分析[J]. 信息通信技术与政策, 2024, 50(6): 23-29.


混合现实视频透视技术关键挑战分析


向潇1  赵蕾2


1.中国信息通信研究院信息化与工业化融合研究所,北京 100083;

2.甬江实验室新型显示与感知研究中心,宁波 315202


摘要:随着用户对于虚拟现实体验沉浸性要求的不断提高,视频透视凭借对环境亮度适应性、视场角大小和虚实遮挡关系等方面的优势,成为当前相比于光学透视更具前景的混合现实技术路线。然而,当前视频透视技术的产品化工作仍处于起步阶段,已推出的混合现实终端在实际应用中存在若干问题。从时间、空间、图像质量三大维度切入,重点围绕图像延迟、视点匹配、视觉分辨率、透视畸变和动态范围5个问题展开分析,旨在为视频透视技术发展提供阶段性总结,理清思路以支持其未来发展。

关键词:混合现实;视频透视;延时分析;视点匹配;图像质量


0  引言


自1968年“计算机图形学之父”伊万·萨瑟兰在美国麻省理工学院林肯实验室研制出全球首款头戴式显示器(Head-Mounted Display,HMD)以来,沉浸式终端的发展演进主要呈现出虚拟现实(Virtual Reality,VR)和增强现实(Augmented Reality,AR)两条技术路线。其中,VR“由实入虚”,依托计算机建模和仿真技术创造出完全沉浸的数字环境,强调虚拟世界的真实体验。AR“由虚入实”,通过在真实世界上叠加数字信息以提高用户对于环境的认识,聚焦物理世界的数字化。然而,传统VR和AR技术均难以实现真实世界和虚拟世界的无缝融合,一定程度限制了沉浸式技术的推广应用。针对于此,近年来业界对混合现实(Mixed Reality,MR)展开了广泛研究和初步应用探索。


1  混合现实的概念与两种实现方式


1994年,加拿大多伦多大学Paul Milgram和日本ATR通信系统研究实验室Fumio Kishino首次提出广义的混合现实概念[1]。他们认为,所有显示场景均可汇集在一个表征场景性质的“现实-虚拟连续体(Reality-Virtuality Continuum)”上,该连续体两端分别为真实环境和虚拟环境,而中间部分则为同时包含真实和虚拟要素的混合现实。从此种意义上讲,AR可视为MR范畴的一部分。然而,在经历技术阶段性发展后,当前业界普遍认为MR特指虚实之间可进行密切交互,而非简单叠加的显示形态(因而并不包含AR)[2],后文将以此定义MR。


虽然MR在概念内涵上明显区别于AR和VR,但就显示原理角度而言,现阶段实现MR的两种主流技术分别为依托于AR终端的光学透视(Optical See-through,OST)和借助于VR终端的视频透视(Video See-through,VST)(见图1)。OST与VST均基于沉浸式终端产生虚拟图像,但在现实世界信息的获取方式上存在差异:前者通常使用半透明光学镜片支持用户对真实世界光线的接收,后者则通过相机完成对真实世界的实时捕捉。在实际应用过程中,由于终端功耗预算的限制,OST技术面临的主要挑战在于终端显示亮度难以匹配充足光线下的外部环境亮度,从而影响虚实元素之间的对比度,降低用户感知度。此外,由于OST技术通过AR终端实现,当前视场角(Field of View, FoV)最高仅能达到50°左右,远低于人眼视场正常范围(120°附近)。相比之下,VST技术中虚拟世界和现实世界均被数字化,这二者之间的对比度仅取决于终端显示性能本身,加之搭载VST技术的VR终端视场角能够达到100°以上,往往保证了更优的显示效果。因此,终端龙头企业纷纷加快对VST技术的研究和布局,自2022年起Meta、苹果、索尼陆续推出具备VST功能的MR终端产品。

图1   实现MR的两种主流技术


然而,当前终端产品通过VST呈现出的MR效果,与理想中的虚实融合仍存在一定差距,可主要归因于若干关键技术难题仍未被完全攻克。本文将从VST技术底层原理出发,重点分析其实现过程中的关键挑战。


2  VST技术基本原理


VST技术的工作原理可通过VR显示和MR显示二者间的对比来理解,其工作流程如图2所示。VR显示聚焦于虚拟图像的高质量渲染和根据用户位姿的实时、准确呈现,可分为追踪、渲染、预处理、显示等环节(见图2(a))。而基于VST技术的MR显示,可近似视为在VR显示的基础上增加了对现实世界的捕捉和重建(见图2(b)),以及现实路(橙色虚线表示)和虚拟路(蓝色虚线表示)的叠加等环节。

图2   VR显示与MR显示的工作流程对比


因此,基于VST技术的MR显示在延续VR显示对渲染质量、延迟优化等需求的基础上,其特有的拍摄、重建、虚实叠加等环节(如图2(b)虚线框内所示)又对实现高质量显示带来了若干全新的技术挑战。


3  VST技术关键挑战


基于当前MR终端的技术水平,实现高质量VST的关键挑战主要在时间、空间和图像质量3个方面。


3.1  时间维度:图像延迟

对于MR终端而言,衡量其VST图像延迟的核心性能指标主要包括虚拟路的动作至光子(Motion to Photon,MTP)延时和现实路的光子至光子(Photon to Photon,PTP)延时。其中,MTP延时为自用户位姿改变至终端虚拟内容显示的时间,表征虚拟路响应速度的快慢。过长的MTP延时会导致用户视觉和前庭系统之间的冲突,进而产生眩晕等不适感受,因此如何降低MTP延时成为学术研究和终端产品化中的重点问题。目前,业界普遍认为当MTP延时被控制在20 ms以内时,晕动症可以被有效缓解甚至完全消除[3-5]。PTP延时可用于度量终端现实内容呈现对用户所处环境响应速度的快慢。尽管当前业界对于PTP延时应取值范围尚未达成明确共识[6],但理论上PTP延时应近似于MTP延时以避免用户产生感官冲突,从而保证流畅使用体验。


对于虚拟路,MR终端面临的挑战与VR终端类似,MTP延时控制的主要瓶颈在于强交互应用的渲染环节,其应用特点对MR终端提出了苛刻的性能要求,总体可归纳为“小马拉大车,既要马儿跑得快,又要吃得少”。一方面,相比于游戏和电影制作等代表性渲染场景,MR应用由于具有更高的分辨率和帧率需求,渲染负载通常达到前者的数倍甚至数十倍以上(取决于沉浸性水平);另一方面,MR终端的移动平台属性,使其不得不面临更加严格的功耗约束。在此基础上,MR强交互应用的实时性要求还远高于传统视频游戏(交互延时约为150 ms)。目前,业界通过优化渲染处理算法,以及基于头部追踪的异步时间扭曲(Asynchronous Time Warp,ATW)[7]等方式可一定程度上降低MR终端渲染延时,并积极探索网联云控发展路线[8]。但由于当前扩展现实(Extended Reality,XR)产业正处于由部分沉浸向深度沉浸迈进的发展阶段[9],渲染负载将不断增加,因而面向MTP延时控制的技术创新需求也将持续存在。


对于现实路,MR终端PTP延时控制的难点在于完成现实场景的实时重建,在保证PTP延时接近于MTP延时的情况下,这对其计算能力提出了比VR终端更高的要求。对于传统MR终端计算架构,现实场景转化为用户视野中的图像总体上会经历相机捕捉、片上系统(System on Chip,SoC)芯片处理、显示屏呈现3个阶段,其核心硬件架构如图3(a)所示。其中,SoC芯片中重点参与这一过程的处理单元依次为图像信号处理器(Image Signal Processor,ISP)、中央处理单元(Central Processing Unit,CPU)和图像处理单元(Graphics Processing Unit,GPU)、显示处理单元(Display Processing Unit,DPU)。

图3   两种不同芯片架构下的VST延时分析


当作为MR终端唯一的处理器时,SoC芯片需同时支撑虚拟路和现实路的相关计算。相较于VR显示,MR显示需在满足MTP延时要求的基础上,尽可能降低PTP延时,由于两路处理过程相对独立,SoC芯片性能必须实现显著跃升。当前,作为XR专用芯片市场的主要占有者,高通公司采取了迭代SoC芯片的升级路线。特别是自2023年下半年以来,高通加快新品上市速度,接连发布骁龙XR2 Gen2(2023年9月)和骁龙XR2+Gen2(2024年1月)两款支持全彩VST的专用芯片,并声称可将PTP延时控制在12 ms内[10-11]。其中,骁龙XR2 Gen2可同时处理10路并行摄像头和传感器(前代XR2 Gen1为7路),GPU性能提升2.5倍,GPU能效提升50%;骁龙XR2+Gen2处理并行摄像头的能力增加至12路,相较于骁龙XR2 Gen2,CPU频率提升20%,GPU频率提升15%。


苹果首代MR终端产品Vision Pro提出一种如图3(b)所示基于主从处理器的双芯片计算架构。其主要特点在于,新增一颗专门用于执行相机(和传感器)信号计算的协处理器芯片,可显著加快现实路图像处理速度,同时虚拟路计算仍主要由SoC芯片支撑,并由协处理器完成传统架构中DPU的显示运算,两路计算结果最终共同传输至显示屏呈现。通过引入定制化设计的协处理器芯片,可优化相关图像处理算法,并完成现实路与虚拟路计算的解耦,从而极大程度地降低MTP延时和PTP延时。Vision Pro中的协处理器R1芯片可处理12个摄像头、5个传感器和6个麦克风采集的数据,并将延时控制在12 ms内。相比之下,Meta Quest Pro、Meta Quest 3和HTC VIVE XR Elite等不具有协处理器的MR终端的PTP延时最小值均在35 ms以上[12]


3.2  空间维度:视点匹配

在MR VST中,视点匹配的需求源自用户视点和MR终端场景相机的位置存在位移及旋转差异,有时又被称为视点合成[13-14]或眼点匹配[15]。下面将以图4为例说明视点匹配的必要性。

图4   用户视点和场景相机的前后景透视差异


将待观察的场景简单地划分为前景目标和后景目标。由于场景相机位于用户视点之前,一方面,由于近大远小的原理,相机捕捉到的前景目标比从用户视点出发更大;另一方面,相机拍摄到的画面将更多被前景目标所遮挡,从而无法拍摄到L1和L2段的后景目标。因此,需要对相机拍摄到的图像进行处理使其尽可能还原在用户视点观察到的真实环境。


对于准确的视点匹配,存在两个关键要点:一是,根据被观察对象与用户距离调整缩放比例,使得用户通过MR终端看到的虚像大小和理论真值一致;二是,通过预测算法还原被遮挡的真实场景(即图4中L1和L2段)。为满足上述两个要点,通常需要结合现实环境深度信息进行场景重建,核心任务是生成深度图,用于表征拍摄图像中每个像素点与相机之间的距离。然而,对于移动式MR终端,在计算资源有限的条件下,深度图生成面临速度和精度的折中。在视点匹配中常用的方法是逆向扭曲[16],分层深度图像[17],纹理贴图模型[18],以及基于机器学习[19]和神经辐射场(Neural Radiance Field,NeRF)[20]的方法,由于需要进行多图像处理、图像分层等复杂计算以提升深度图精度,往往难以满足MR显示的实时性要求。


因此,根据当前仅有的少量文献描述,MR终端实时重建通常并不极致追求生成深度图的整体精度,而是对于重点位置如物体边缘进行精细化处理,进而有利于在满足延时要求的前提下获得更准确的几何结构和遮挡关系[6]。此外,可采取硬件外参标定的方式,依据用户视点和场景相机的相对位置,预先建立二者观察同一对象时的坐标映射关系[14],再根据实际测得的深度图快速完成视点匹配。


在算法层面以外,MR终端不断提高相机和传感器配置以支持更优的环境感知。早期MR产品Meta Quest Pro(2022年10月上市)仅通过两个1 280×1 024 dpi灰度相机进行拍摄,经历裁剪、旋转和预处理等过程后,最终生成的像素质量仅为500×500 dpi(通过一个1 600万像素RGB相机着色)[21]。相比之下,Meta Quest 3(2023年10月上市)使用两个400万像素RGB摄像头进行拍摄,并新增一个深度传感器加强对场景的理解。苹果Vision Pro(2024年2月上市)则配备两个650万像素RGB摄像头,辅以一个dToF激光雷达,支持VST和3D拍摄功能。


3.3  图像质量维度:视觉分辨率、透视畸变和动态范围

即使MR终端能够满足图像延迟和视点匹配的要求,其VST效果最终仍取决于呈现给用户的图像质量好坏。图像质量与MR终端硬件传感、数据处理、近眼显示能力均密切相关,参考当前已有产品情况,主要体现出分辨率较低、存在透视畸变和动态范围较差等问题。


如前所述,在实时性约束下完成空间重建,对于功耗、尺寸受限的MR终端而言极具挑战,为此可通过适当牺牲视觉分辨率的方法降低计算负载压力。对于早期MR终端产品如Meta Quest 2,其VST多用于确定用户安全边界,仅支持现实画面的黑白显示。随着更多终端产品开始支持全彩VST,现实内容清晰度不断提高,但仍低于终端显示最高分辨率。例如,Meta Quest Pro现实路呈现分辨率(单目)仅为500×500 dpi,而显示分辨率最高可达1 800×1 920 dpi。类似地,Apple Vision Pro场景相机拥有650万像素,但4K显示屏能够达到1 170万像素(3 660×3 200 dpi)。


为提高虚实融合体验沉浸感,MR终端场景相机多采用具有大视场角的广角相机。当被拍摄物体距离镜头相对较远时,场景相机捕捉内容通常不会出现显著异常。但当进行近距离拍摄时,为使拍摄内容充满画面,相机会进入失真范围,从而使画面出现严重的透视畸变[22]。例如,使用Meta Quest 3浏览电脑内容时,随着用户头显贴近电脑屏幕,注视内容呈现明显外凸效果。


由于需使用场景相机对现实环境进行捕捉,MR终端的VST效果一定程度上会受到环境影响,特别是在低光或暗光下显示质量会显著下降,可以体现为两方面问题。一是,由于环境中光线不足,终端相机能接受到的有效信号减少,画面信噪比下降,从而出现明显噪点,这在多款Meta Quest系列终端中有所体现[21-22];二是,终端相机会通过增加曝光时间的方式补偿环境亮度,在此期间物体的整个运动过程都会被记录,苹果Vision Pro即表现出运动模糊现象[23]


4  结束语


总体来看,基于VST的MR仍处于发展初期,终端产品数量有限且存在多方面技术问题尚未解决。本文将相关技术挑战切分为时间、空间、图像质量三大维度,重点剖析图像延迟、视点匹配、视觉分辨率、透视畸变和动态范围等技术或指标所面临的难点和当前产品的发展水平。随着以苹果和Meta为代表的龙头企业逐步构建起VST内容生态,未来预计会有更多研究展开以加速解决VST技术的关键挑战。


The analysis of video see-through challenges in mixed reality


XIANG Xiao1, ZHAO Lei2


(1. Informatization and Industrialization Integration Research Institute, China Academy of Information and Communications Technology, Beijing 100083, China;

2. Novel Display and Sensing Research Center, Yongjiang Laboratory, Ningbo 315202, China)


Abstract: As the demand for the level of immersion in extended reality (which includes virtual reality and augmented reality) continues to grow, video see-through (VST) has become a more promising mixed-reality technique than optical see-through (OST) due to its advantages in environment brightness adaptability, field of view and occlusion implementation. However, a few products equipped with VST have showcased multiple problems as the technique is still in an early phase. Therefore, the analysis has been conducted in the aspects of temporal, spacial and image quality, focusing on problems of image latency, point of view accommodation, oculus resolution, perspective distortion and dynamic range. Hopefully, this paper can provide an insight into VST status quo and facilitate its future development.

Keywords: mixed reality; video see-through; latency analysis; point of view accommodation; image quality



本文刊于《信息通信技术与政策》2024年 第6期



主办:中国信息通信研究院


《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“ 信息通信技术前沿的风向标,信息社会政策探究的思想库 ”,聚焦信息通信领域技术趋势、公共政策、 国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。


期刊荣誉与收录情况

AMI(2022版)A刊扩展期刊

RCCSE中国核心学术期刊

入选中国科协信息通信领域高质量科技期刊分级目录




《信息通信技术与政策》投稿指南


为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊官方网站(http://ictp.caict.ac.cn)已正式投入运行,欢迎投稿!





   推荐阅读  


专题丨人工智能时代数据库技术创新态势研究
专题丨智能计算关键技术产业发展态势研究
专题丨大模型算力基础设施技术趋势、关键挑战与发展路径
导读:先进计算
《信息通信技术与政策》2024年第50卷第6期目次及摘要



“在看”我吗?

【声明】内容源于网络
0
0
信息通信技术与政策
工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”。
内容 986
粉丝 0
信息通信技术与政策 工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”。
总阅读377
粉丝0
内容986