大数跨境

Light | 呼之欲出: 裸眼3D时代终要到来

Light | 呼之欲出: 裸眼3D时代终要到来 两江科技评论
2022-08-06
4
导读:本研究解决了两大类传统算法各自的痛点,提供了基于神经网络的计算全息图渲染训练新思路以及更适合的三维输入表征。

从维多利亚时期的立体镜(stereoscope)到高度电子化的Oculus Quest 2,光学显示与电气工程领域的一次次进步正在逐渐模糊虚拟与现实的边界。

计算全息(CGH)通过数字化记录虚拟或真实存在物体的光波振幅与相位,可以复现具有物理景深效果且能够裸眼观看的真实三维场景。这令其成为虚拟现实以及增强现实领域的下一个变革性技术与研究热点。

为了获取计算全息图,传统方法通常采用光波仿真加相位编码,或基于迭代的相位检索(phase retrieval)以满足相位型空间调制器无法调制强度的约束。前者快捷,但相位编码需要针对不同场景手动调节最优滤波强度,以获得清晰无散斑的三维显示,且当三维场景远离全息图所在平面时,需要更强的滤波消除散斑,因此将牺牲一定的空间分辨率。后者可实现无人工干预的端到端生成,但迭代算法非常耗时。

近来基于监督学习与无(半)监督学习训练的神经网络被分别用来加速前后两类算法。这些算法虽然取得了显著的进步,但改进后的两类算法相对的优劣势依然存在。为了突破这一局限,来自麻省理工学院的研究团队提出了两阶段(监督+无监督)训练法以融合两类方法的优势,并首次引入了分层深度图像(Layered Depth Image,LDI)以替代体素与RGB-D图片作为神经网络的输入表征,实现了完整且渲染高效的三维信息传递。
1:分层深度图像与体素的三维编码效率对比:(a)分层深度图像的渲染逻辑,(b)分层深度图像的渲染结果,三层即可记录相机视角下几乎完整的三维信息,(c)体素渲染结果,高质量三围编码需要使用细粒度的体素间隔,导致结果稀疏,编码效率相对低下,且深度信息被量化。

2:两阶段神经网络训练管线

相较课题组前期的工作(Nature 2021, 591, 7849),研究者引入了基于LDI和掩膜分层法(silhouette-mask layer-based method)计算的全新大规模全息图数据集MIT-CGH-4K-V2,以实现更为逼真的3D景深效果。研究者同时提出了基于第二阶段无监督学习的深度双相位编码(deep double-phase method),可以针对距离全息图平面不同传播距离的三维场景实现端到端高质量纯相位全息图生成。
3:(a)三维投影拍摄结果展示,相较前期工作,本文改善了前景背景边界的失真,实现了更逼真的景深效果,(b)神经网络同时实现全息投影像差矫正

研究结果显示,该方法能够稳健地处理非完美深度图的真实采集输入,且通过用户闭环(user-in-the-loop)校准数据集,可以实现端到端生成光学像差矫正后的三维投影,已达到去除用户佩戴矫正眼镜的需求。
4:基于神经辐射场(NeRF)输出的RGB-D所计算拍摄的三维全息投影(建议无限循环)

本研究的开展,解决了两大类传统算法各自的痛点,提供了基于神经网络的计算全息图渲染训练新思路以及更适合的三维输入表征。该方法的稳健性使得由神经辐射场(NeRF)重建的带有不完美深度图的三维场景也能够被转化高质量的计算全息图,从而极大地减小了真实采集输入的获取难度。此外针对像差修正的集成为计算全息在轻量级、可穿戴的便携式全息近眼显示的实现提供了技术可行性支持。

论文信息:

该研究成果以End-to-end Learning of 3D Phase-only Holograms for Holographic Display”为题在线发表于Light: Science & Applications。通讯作者为麻省理工学院计算机与人工智能实验室Wojciech Matusik教授,第一作者/共同通讯作者史亮博士生,第二作者李北辰博士生。该工作得到了MIT.nano NCSOFT Seed Grant的支持。


论文地址:

https://www.nature.com/articles/s41377-022-00894-6

免责声明:本文旨在传递更多科研资讯及分享,所有其他媒、网来源均注明出处,如涉及版权问题,请作者第一时间后台联系,我们将协调进行处理,所有来稿文责自负,两江仅作分享平台。转载请注明出处,如原创内容转载需授权,请联系下方微信号。

【声明】内容源于网络
0
0
两江科技评论
聚焦“光声力热”超构材料、凝聚态物理、生物医学、智能制造等领域,打造科研人便捷的交流平台,发布优质新鲜的科研资讯。
内容 6001
粉丝 0
两江科技评论 聚焦“光声力热”超构材料、凝聚态物理、生物医学、智能制造等领域,打造科研人便捷的交流平台,发布优质新鲜的科研资讯。
总阅读13.9k
粉丝0
内容6.0k