自从2014年,Facebook花费20亿美元收购了Oculus以来,几乎每天都有VR公司获得投资。视频行业中,国内外各家视频公司也相继推出全景频道,可以实现VR点播及直播业务。早在1955年,Disney拍摄了第一部360°电影--America the Beautiful。拍摄过程利用9台摄像机完成,并采用9台巨大的屏幕围成一个环形的形式进行观看。近年来随着个人计算设备、移动智能终端的发展,特别是云计算技术的发展,VR产业迎来爆发式发展,VR行业在视频、娱乐、游戏、交互等领域的应用得以快速推进。

图:VR全景视频整体方案
对于视频内容的生产而言,第一步就是视频的采集。与普通视频生产不同,全景视频的采集需要多台摄像机同时完成。目前常用的采集设备有Google Jump、GoPro、NOKIA OZO、NextVR等。全景视频拍摄设备的取景范围为水平360°,垂直180°。如下图所示:

图:拍摄设备覆盖范围
拍摄使用的全景拍摄设备都是经过相机参数标定的。而在拍摄过程中,我们还需要解决多相机的采集同步的问题。常见的同步方式有:闪光同步(Flash),即检测所有相机视频帧内的“闪光”,如明亮帧,白色帧,利用这个信号进行同步;运动同步(Motion),即检测所有相机视频帧内的运动信息,通过匹配各帧运动量进行同步;声音同步(audio spectrum),即分析所有相机采集到的声音频谱进行同步;以及手动同步(manual),即根据某一个时刻的所有相机采集的视频帧手动进行微调。

图:相机同步方式
完成同步采集后,需要将多相机采集的视频帧进行拼接,而在拼接之前,考虑到各帧是相机在不同角度下拍摄得到的,所以他们并不在同一投影平面上,如果对重叠的图像直接进行无缝拼接,会破坏实际景物的视觉一致性。所以需要先对图像进行投影变换,再进行拼接。一般有平面投影、柱面投影、球面投影和鱼眼投影等。

图:投影变换
完成投影变换后,之后的步骤就是拼接,拼接过程主要有特征提取—特征匹配—配准—融合等步骤。
常用的特征提取方法有SIFT、SURF、ORB、BRIEF等,下图所示为SIFT特征提取过程。

特征点匹配可以采用SIFT的作者Lowe提出了比较最近邻距离与次近邻距离的SIFT匹配方式,或者KD-Tree算法等。而在匹配过程中,通常使用RANSAC算法对特征点进行筛选。

配准的目的是根据几何运动模型,将图像注册到同一个坐标系中,在多幅图像配准的过程中,采用的几何运动模型主要有:平移模型、相似性模型、仿射模型和透视模型等。

完成图像配准后,便可以进行图像融合操作,图像融合技术一般可分为非多分辨率技术和多分辨率技术两类,比如常见多分辨率技术—Laplacian Pyramid,如下图所示:

此外,当场景中的物体存在运动的情形时,融合后的全景图像中会出现“鬼影”的情况。ROD(Regions of Difference)算法都能够消除这种Artifact。



去鬼影前

去鬼影后
上述后处理步骤完成后,便可以得到最终的VR全景视频。

想了解更多?
长按二维码 关注我们


