视频|数字化3D建店技术探索- 大数跨境

首页

视频|数字化3D建店技术探索

苏宁科技

2020-09-17

导读：门店数字化赋能系列课程第三讲，开课啦！

9月16日，苏宁零售技术研究院算法工程师梁贵钘就门店数字化赋能系列课程发表了主题为《数字化3D建店技术探索》的分享。

他表示无人店的本质还是商店，门店的基础是“人货场”，因此无人店的关键目标是对“人货场”三要素进行数字化，3D建店技术是门店数字化最基本的一环，其结果将决定后续工作的结果是否容易并准确，在门店数字化过程中十分重要。

数字化3D建店整合了场景中的多种视觉传感器，充分利用多摄像机的优势，利用算法对整个场景进行建模，并结合GPU加速等技术，实现高精度的实时全场景建店，为真实物理世界的门店搭建一个高度镜像化的数字世界，门店内的人货场的状况如何，都可以通过数字世界进行清晰感知，就像照镜子一样。这意味着人货场的透明性大大增加，“全生命周期精细化管理”将变得可能。

数字3D建店工作为后续工作，如点云分割、三维姿态估计等后续工作提供数据基础，为行人跟踪、人货交互等分析提供统一的参考体系。

以下为门店数字化赋能系列课程第三讲内容整理:

大家好，我是来自苏宁科技集团零售技术研究院的算法工程师梁贵钘，今天给大家带来的是我们门店数字化专项的第三期的直播课程内容，主要是想和大家在一起分享一下关于数字化3D建店的一些技术探索。

今天的内容主要可以分成三个部分：

第一个部分是3D深度相机的选型和标定

第二部分是3D深度相机和安防相机的全场景的联合标定

第三部分就是三维重建算法的一些应用场景介绍

在本期课程当中，您将可以了解到数字化3D渐变技术的探索过程中相机的选型和标定，数字化3D鉴定技术的全场景联合标定算法的设计和考虑以及数字化3D鉴定技术是怎么样去赋能门店的数字化的？

为进一步夯实苏宁科技集团数字化门店的技术基础，南京、北京、美国硅谷三支研发团队齐心协力，经过一年的努力，成功研发出第四代视觉无人门店。无人店的本质还是商店，门店的基础“人货场”，因此无人店的关键目标是对“人货场”三要素进行数字化，3D建店技术是门店数字化最基本的一环，其结果将决定后续工作的结果是否容易并准确，在门店数字化过程中十分重要。传统门店采用人工监管的形式进行门店管理，难以做到对整个门店的全时段全场景的实时感知，无法做到“事无巨细”地全时段实时响应，而数字化3D建店整合了场景中的多种视觉传感器，充分利用多摄像机的优势，利用算法对整个场景进行建模，并结合GPU加速等技术，实现高精度的实时全场景建店，为真实物理世界的门店搭建一个高度镜像化的数字世界，门店内的人货场的状况如何，都可以通过数字世界进行清晰感知，就像照镜子一样。这意味着人货场的透明性大大增加，“全生命周期精细化管理”将变得可能。数字3D建店工作为后续工作，如点云分割、三维姿态估计等后续工作提供数据基础，为行人跟踪、人货交互等分析提供统一的参考体系。

在门店数字化过程中可以说深度相机就是终端的眼睛。随着机器视觉算法技术逐步发展，3D相机的应用越来越广泛。深度相机又称之为3D相机，顾名思义，就是通过该相机能检测出拍摄空间的景深距离，这也是其与普通摄像头最大的区别。通过深度相机获取到的数据，我们能准确知道图像中每个点与摄像头的距离。这样加上该点在2D图像中的坐标，就能构建图像中每个点的三维空间坐标。通过三维坐标就能还原真实场景，实现场景建模等。在实际应用中，根据不同的需求正确地选用满足场景需要的相机尤为重要。从精度方面考虑：彩色图和深度图图像质量、深度图和彩色图能否对、测量精度、量程、深度图光照稳定性、深度图对黑色物体表面敏感程度、帧率、运动模糊、数据传输稳定性等都将影响到实际使用时候的精度。多相机协同方面：多相机间是否干扰、相机间能否同步决定了该相机能否适用于大规模建店；而相机的单价、视场角、以及网络相机传输的带宽要求则决定了最后相机及其配套设备的成本。应用时候需要耐心地考虑衡量各个指标进行精挑细选。

目前市面上常有的深度相机方案有结构光、光飞行时间法、双目相机。下面主要从原理上对这三种方案进行对比。

结构光，其原理是通过近红外激光器，将具有一定结构特征的光线投射到被拍摄物体上，再由专门的红外摄像头进行采集。这种具备一定结构的光线，会因被摄物体的不同区域深度不同产生相应的结构变化，从而能够采集得到不同的图像相位信息，然后通过运算单元将这种结构的变化换算成深度信息来获得相应位置的三维结构。目前结构光技术有如下几种变种：一种是单目IR+投影红外点阵，另外一种是双目IR+投影红外点阵，这样相当于结构光+双目立体融合了，深度测量效果会比前者好一些，不足之处就是体积较大。而单目IR+投影红外点阵的方案虽然体积较小，但是精度会差一点。结构光方案较为成熟，图像分辨率可以做的比较高，相机基线可以做的比较小，方便小型化。资源消耗较低，功耗低。它具备主动光源，因此夜晚也可使用，在一定范围内测量精度高。但是结构光容易受环境光干扰，室外体验差，并且随检测距离增加，精度也会变差。

TOF是测量光飞行时间来取得距离，具体而言就是通过给目标连续发射激光脉冲，然后用传感器接收反射光线，通过探测光脉冲的飞行往返时间来得到确切的目标物距离。ToF相机在激光能量够的情况下可达几十米，受环境光干扰比较小，检测距离远。但是tof相机对硬件设备要求较高，特别是时间测量模块。检测相位偏移时需要多次采样积分，运算量大，资源消耗大。限于资源消耗和滤波方法的要求，深度图像边缘精度低，帧率和分辨率也没办法做到很高。

双目立体视觉是机器视觉的一种重要形式，它是基于视差原理，利用两个成像设备从不同的位置获取被测物体的两幅图像，通过计算图像对应点间的位置偏差，来获取物体三维几何信息的方法。由于是基于双目RGB图像匹配的方案，这种相机对硬件要求低，成本也低，只需要普通的CMOS相机就可以。只要光线合适，不要太昏暗，室内外都适用。但是这种相机对RGB图像质量依赖性强，对环境光照相对比较敏感。因为是基于特征匹配，在单调缺乏纹理的场景性能会有所下降。并且纯视觉的方法对算法要求高，计算量大。其测量范围由基线限制。测量范围和基线（两个摄像头间距）成正比，导致无法小型化。经过实验测试，在数字化3D建店中我们选用了tof的方案。

在图像测量过程以及机器视觉应用中，为确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系，需要建立相机成像的几何模型，并对这些几何模型参数进行求解，这个求解参数的过程就称之为相机标定。标定参数是进行物体三维结构的恢复的基础。无论是在图像测量或者机器视觉应用中，相机参数的标定都是非常关键的环节，其标定结果的精度及算法的稳定性直接影响相机工作产生结果的准确性。因此，做好相机标定是做好后续工作的前提，提高标定精度是科研工作的重点所在。如图所示，相机标定就是为了求解出图像坐标系(u.v)转换到相机坐标系(Xc,Yc,Zc)的转换矩阵K以及相机坐标系转换到世界坐标系(X,Y,Z)的旋转矩阵R和平移向量t。常用的相机标定方法有：传统相机标定法、主动视觉相机标定方法、相机自标定法等。

目前出现的自标定算法中主要分为利用相机运动约束和利用场景约束。而利用相机运动约束这一约束条件太强，因此在实际中并不实用。利用场景约束主要是利用场景中的一些平行或者正交的信息，而这一约束对场景要求性高。整体而言自标定算法对环境和自身运动依赖性强、鲁棒性较差。因此不适用于数字化3D建店场景。

基于主动视觉的相机标定法是指已知相机的某些运动信息对相机进行标定。该方法不需要标定物，但需要控制相机做某些特殊运动，利用这种运动的特殊性可以计算出相机内部参数。基于主动视觉的相机标定法算法简单，往往能够获得线性解，故鲁棒性较高，但系统的成本高、实验设备昂贵、实验条件要求高，而且不适合于运动参数未知或无法控制的场合。且在数字化3D建店场景中相机是固定的，这种方案并不适用。

传统相机标定法需要使用尺寸已知的标定物，通过建立标定物上坐标已知的点与其图像点之间的对应，利用一定的算法获得相机模型的内外参数。并且在张正友教授提出基于二维标定板标定方法后，操作变得更加灵活。高精度也比较高且算法稳定性。因此被广泛使用。该方法也适用于数字化3D建店场景。

传统标定法需要使用尺寸已知的高精度、高制作工艺要求的三维标定物进行标定，标定成本高。张正友教授提出的基于二维单平面棋盘格的相机标定方法。提出的方法介于传统标定法和自标定法之间，克服了传统标定法标定物高制作精度要求、制作成本高的缺点，仅需使用一个打印出来的棋盘格平面就可以。同时也相对于自标定而言，提高了精度，便于操作，该算法在计算机视觉方向被广泛应用，适用于数字化3D建店中。如图所示，使用张正友标定方法的一般步骤是准备一个棋盘格平板，针对棋盘格拍摄若干张图片；然后利用角点检测算法在图片中检测特征点；根据特征点坐标和棋盘格确定的坐标系上交点的坐标对应关系求解出5个内部参数，以及6个外部参数；最后利用极大似然估计策略，设计优化目标函数，实现参数的调优最终得到相机相对于由标定板确定的坐标系的位置关系。在实际应用过程中，我们在原算法基础上添加自动噪声数据滤除机制用于自动筛除噪声较大的数据以避免采集过程中由于运动等带来的噪声数据的影响。在外参确定的过程中，我们会选取其中的一个参考系作为最后统一的坐标系，而其余的数据则是辅助提升标定精度、求解方程使用。于是我们希望针对选定的坐标系做偏向性优化，因此在重投影误差优化时使用了加权优化的方式作为改进以更适用于我们的应用场景。

双目标定对比于单目标定，除了要求出每个摄像机的相机内参数矩阵和畸变系数矩阵外，还为了得到左右两个摄像机的相对位置关系（即右摄像头相对于左摄像头的平移向量t和旋转矩阵R）。通过这个对应关系可以将左右相机坐标系中的点坐标进行相互转换，将在物理世界中的物体在两个相机中统一起来。让两个相机之间产生联系，使每一个相机不只是一个单独的个体在运转。双目标定的方法的步骤是：先将棋盘格标定板置于两个相机共同视野内拍摄若干照片；然后对左右摄像头分别进行标定，得到两个摄像头各自的内参矩阵和畸变参数向量以及相对标定板确定平面的旋转矩阵和平移向量。接着以标定板确定的坐标系为媒介，通过立体校正得到左右相机之间的旋转矩阵和平移向量。最后设计优化目标函数对标定结果进行重投影优化。

双目标定确定了两个相机之间位置转换关系。在数字化3D建店过程中，需要联合整个场景中所有的相机设备对整个场景进行数字化建模，因此仅对两个相机进行标定是不够的，需要进行全场景内所有视觉传感器的联合标定。深度相机往往较安防相机成本要高，但深度值测量更为准确。因此方案中同时使用了安防相机和深度相机。这样在联合标定过程中就涉及到了不同类型相机之间的标定。不同类型相机之间存在分辨率不一致、帧率不一致、难以同步等问题，因此较同类型相机标定来说跨类型相机间的标定误差往往更高，标定难度更大。在全场景联合标定过程中，为了优化全场景标定结果，减小误差，我们在同类型标定时使用多帧重投影误差迭代优化并将双目标定结果作为优化的输入，利用基于传感器测量结果更准确的特点，结合同类型相机之间标定较准的特性辅助跨类型相机之间的标定；使用传感器测量和双目匹配方式相结合对标定的外参数进行优化。先将场景内的相机以深度相机为基准进行分组（即每组至少保证有一个深度相机）进行组内优化。然后考虑全局约束，对整个场景内的相机外参数进行全局闭环优化。在点云融合阶段，采用迭代最近点的IPC算法对点云融合进行迭代优化。通过这种分步渐进式的优化方式得到高质量的全场景数字化建模结果。

有了高精度的全场景联合标定算法，结合GPU加速实现实时场景点云重建，完成对场景内每一个角落数字化，实现全场景数字化孪生。将门店的状态实时数字化复刻出来，可以用于VR看房的三维重建；结合目标检测、点云分割等技术将顾客与背景分离，实现对顾客的360°数字化建模，并且可以借助5G将建模结果传送到顾客的手机，由顾客随意选择视角，打造更真实、更全面、更精准、体验更良好的全场景VR试衣镜。使用区域标注、区域生长算法等将场景划分区域，针对不同区域进行不同的精细化管理。例如在数字化门店中，将整个场景划分为进出店区域、大屏展示区域、不同的商品区域。可以做到当顾客靠近进店区域主动打招呼，到达出店区域提前打开闸机等人性化服务。当到不同的顾客进入大屏展示区域，可以针对不同的顾客推送一些定制化的产品推荐。在不同的商品区域可以结合商品特色以及顾客偏好进行产品介绍和推荐，实现无人导购。

再更进一步，数字化3D建店实现对线下场景的高度复刻，与真实世界物体相对应，为全场景分析提供统一参考系，与行人检测、跟踪及人货交互分析相结合，实现对线下用户画像的刻画。结合三维姿态检测、行人检测、行人跟踪等技术，可以容易的获得顾客在什么区域停留了多久、拿过什么。可以容易的归纳出顾客对某类商品的购买频率以及购买习惯，从而归纳出顾客的一些短期需求、长期需求以及偏好等等，进而对顾客进店购物时进行个性化推荐，甚至为老顾客提供一些人性化提醒服务，提高用户体验。如某位顾客通常每隔一个月左右购买一次A用品，并且大多数情况下购买A用品的时候还会买B商品。那么，根据这些习惯，可以给顾客做一些是否到了购买A的时候了，或者是买B商品的时候提醒是否该买A了这样的类似备忘录一样的人性化提醒。

目前苏宁正在推进开放平台建设，为生态合作企业赋能门店数字化能力。我们也成立了相关的社群，对于苏宁门店数字化感兴趣的小伙伴可以扫码添加我们的科技小助手，进入群聊。进群更有多重好礼等你拿，拉入5位小伙伴，即可与大咖视频沟通半小时；而拉入的小伙伴可以获得全场景视觉无人店全解析、了解最新技术信息、优先参与线下开放日、获得开源代码内容、苏宁校招内推、苏宁社招内推、协会、联盟、标准优先入围资格等。

【声明】内容源于网络

苏宁科技

苏宁技术官方号。解读前沿零售技术，分享苏宁技术实践。

内容 623

粉丝 0

苏宁科技苏宁技术官方号。解读前沿零售技术，分享苏宁技术实践。

总阅读54

粉丝0

内容623