
9月22日,元橡科技CEO鲁耀杰在企业家大型访谈节目——《讲科学》平台接受访谈,就3D立体视觉领域的技术发展现状、趋势、行业机会等话题,鲁耀杰先生与睿慕课&CAIRDC创始人周朔鹏展开了交流和探讨。以下为访谈摘录(上篇)。
周朔鹏:
今天我们请到的是元橡科技总经理鲁耀杰,曾任职500强外资公司研究所科学家,从2007年开始做双目立体视觉方面的研究,包括双目视觉的核心算法和双目视觉产品在汽车上的一些应用。元橡科技是全球领先的智能立体视觉芯片和解决方案提供商。
鲁耀杰:
大家好,我是鲁耀杰,来自元橡科技。
周朔鹏:
从立体视觉的角度来讲,它有很多技术路线,比如结构光、ToF,还有立体成像双目相机等等,那么元橡是走的哪一条技术路线?还是各种技术路线都有涉及?
鲁耀杰:
元橡最主要还是在做双目立体视觉,正如您所说,立体视觉有很多技术路线,但我们是专注于仿生双目的。
周朔鹏:
和国内其他一些做立体视觉的研究团队和公司相比,元橡在技术原理上有什么样的差异呢?
鲁耀杰:
刚才提到我们的技术路线是双目,双目跟ToF、结构光是有区别的。在这三种技术路线里,双目是唯一一个纯被动光,靠环境光来成像的,两个摄像头通过三角测量原理测距。ToF是根据飞行时间计算距离,结构光则是根据模式的变化来测量具体信息。
因为技术原理不一样,双目本身会具有一些优势。首先被动光对环境的适应性会更好,我们知道太阳光是全光谱的光,如果依赖主动光一定会有干扰,那双目从技术角度来说更能抗干扰。
另外我们选择这条技术路线一个非常朴素的原则就是:自然选择一定是正确的,它是在千万年里进化而来的,所以我们认为双目路线至少在我们生活的环境下一定有它的用武之地。
元橡其实一开始是立足于车载立体视觉。车载有两个特点:一是车载要求的测距距离较远,二是可靠性要求高。从双目三角测量原理来看,因为两个相机之间的baseline是确定的,安装在车上是不可能无限制放大的,所以在短baseline情况下测远距离本身的技术难度会大很多,而元橡就是从算法本身去把这个测远距离的能力建立起来。元橡跟很多做近距离视觉的公司不同,我们一开始就是立足于远距离的,在远距的情况下也能很好地测距,是元橡的一个技术特点。
周朔鹏:
那这种完全被动光的方式是不是会受干扰比较大呢?比如我们之前使用相机做工业抓取的时候,一定要给它打光,保持环境光的稳定,否则全是自然光的话,就会有很大的可能性会识别出错。元橡是怎么解决这样一些问题的?
鲁耀杰:
这也就是我们所谓的成像可靠性,环境光的影响不仅仅是双目需要解决的,单目和双目都需要去攻克这一部分。比如高动态,在光亮和暗处都要能看清楚,在逆光、侧逆光这些情况,只要在行业内做视觉的,这些问题都要去解决。
随着这几年摄像头使用的越来越多,我们的传感器CMOS也在不断改良,十年前CMOS动态范围能做到100dB就已经很了不起了,现在能做到140dB也是个轻轻松松的事情。所以整个行业本身的发展其实就在不断解决环境光影响的问题。我们作为智能立体视觉供应商,其实也是趁着行业东风在不断发展完善。就像汽车它虽然有头灯,但有时候也会遇到头灯坏了而处于一个暗光环境的情况,而我们看到近几年摄像头CMOS感光度已经越来越高了,已经出来了星光级,甚至黑光级的CMOS。我们的双目也是基于这样比较好的CMOS去做的。行业技术本身是在不断进步的。
周朔鹏:
像风雨天这种恶劣天气环境对双目视觉深度测量会产生干扰,元橡通过什么样的方式去解决这些问题?
鲁耀杰:
这个问题关于环境普适性。其实在视觉领域最怕的倒不是雨天,最怕的是雪天和雾天,能见度特别低,这个在我们系统里叫做功能降级,虽然我们也会做一些去雾的算法把图像增强,但是它有一定的极限。
我们通常把双目和普通单目来做一个比较。像雨天对视觉的影响主要是在于图像噪声,也就是有些地方拍清楚了,有些地方没拍清楚。如果我们用深度学习的方法去做对象检测会是一个巨大的挑战。举个例子,我前面有一个车,但有一部分缺失了,那我还能识别出这个车吗?如果找不到这个车,后面的一系列应用都没法做了。相比之下,立体视觉的好处就是,虽然图像上有一定的噪声,但是在没有噪声的地方,我还是能得到准确的深度信息。我们把噪声过滤掉,得到的立体信息虽然信息密度降低了,但是信噪比没有太多影响。所以即使在雨天,对前方对象的检测影响也比较小,在这些情况下,立体视觉相对于二维视觉有一定的增强。
周朔鹏:
在当下的无人驾驶或者说辅助驾驶领域,我们看到一些车上它是用的多线激光雷达,通过激光点云去感知识别,而元橡的技术是用双目深度图,或者说点云图来识别,这也是两种不同的技术路线在解决相同的问题,两种路线孰优孰劣?未来一方会被另一方替代或者两者做融合吗?
鲁耀杰:
这是个非常好的问题,我也经常被问到。立体视觉其实是两个关键词,“立体”和“视觉”。“立体”的话,其实就是三维的信息,激光雷达也是会得到一个三维信息,激光雷达除了深度之外,在水平上也会有一个分辨率。而立体视觉在立体信息之外,还有一个关键词是“视觉”,它得到三维信息的同时也得到了纹理信息。纹理信息对于对象的分类和识别是非常有用的。所以在激光雷达的方案里,无论如何都要有视觉,因为它本身很难得到纹理信息。并且从成像原理和特征来说,三角测量的精度是跟距离成反比的,这一特点跟激光雷达距离等分辨率不完全一样。
既然激光雷达方案里一定会用到视觉,那就变成了“激光+单目”还是“激光+双目”的技术路线选择问题。刚才您提到无人驾驶,在无人驾驶领域,我们一般考虑两个问题,一个是功能实现,另一个非常重要的是安全性。
考虑安全性时我们就需要有各种各样的冗余保障,对于无人驾驶测距,一定是多传感器融合的,所以其实它们不是一个替代的关系。那说到融合呢,就涉及到融合的难易程度,看信息的匹配度,立体视觉跟激光雷达本身有很大程度的信息重合,这样融合就会更简单。说到融合,那还有一点就是说争融合中心,到底是谁融合谁?立体视觉有一个优势是信息密度高,更适合当融合中心。所以总体来说,我们认为未来一定是融合的方向,并且立体视觉或者说视觉会是融合的中心。
周朔鹏:
根据之前的一些报道,特斯拉的车上取消了激光雷达,激光雷达和视觉应该是两套特性不一样的感知系统,对此您怎么看?
鲁耀杰:
首先现在特斯拉其实也还没有做到纯无人驾驶,现在的级别大概是L3或者L3+,它还是在一个限定环境下的。特斯拉不仅仅取消了激光雷达,也取消了毫米波雷达,采用纯视觉方案。那我们反过来看,没有无人系统,我们在做有人驾驶的情况下其实也就是纯视觉解决方案,人也是没有激光雷达和毫米波雷达的,从这一点来说,纯视觉方案至少达到接近于“人“的可靠性是可以做到的,这条技术路线我们觉得也是合理的。
周朔鹏:
对,其实这个也合理,因为无非就是传感器精度进一步提高,提高到比如说像人眼视网膜那样的精度甚至更高,我们人类进化到现在其实也是用不着激光雷达的。从进化论的角度来说,确实有可能都直接用双目视觉来解决。
鲁耀杰:
对,所以我们觉得用纯视觉至少能达到一定的程度。同时我们也不排斥激光雷达,我们有些设计里面也用到了激光雷达,激光雷达加上去,能做的更好。我们刚刚提到特斯拉纯视觉系统,在特斯拉的车上视觉传感器的个数已经非常多了,它是一定可以超越人的,因为它的感知范围更广。人开车时候本身也还是存在视觉盲区的,用机器视觉的方式可以做到比人更好。
周朔鹏:
是的。我觉得现阶段多传感器融合其实也是为了弥补某一种传感器的缺点,或者说考虑安全性、可靠性、稳定性等一系列的问题。
周朔鹏:
刚才我们提到毫米波,其实现在毫米波也在做3D成像,除了原本的测距之外也能解决高度测量这些问题,那这条技术路线又起到了什么作用呢?
鲁耀杰:
目前比如说汽车上的距离传感器,包括激光雷达、毫米波和视觉等业内都有在使用。但是其中激光雷达和视觉在全天候方面的能力其实是差不多的,因为激光雷达用的光谱是接近可见光的,它是用的红外光谱,但波长还是比较短,穿透性有限。那毫米波就不一样,毫米波的波长更长,穿透性更好,所以毫米波在车上的全天候是最好的,大雪大雾大雨这些对它影响都比较小。如果我们要做一个全天候的辅助驾驶系统,那目前很大程度上毫米波是不可替代的。虽然说特斯拉取消了毫米波,但高端车里面很多都是毫米波和视觉融合的。
毫米波现在的发展方向也是不断地在提升分辨率,从原理上来说,因为它波长长,最后能提升的横向密度是有限的。提升毫米波分辨率,对于整车安全性而言肯定是有利的,但是这里有个度,想让毫米波雷达分辨率达到激光雷达和视觉一样,这个太难了。所以我们说,各个传感器只要能发挥优势,各展所长就行了。
周朔鹏:
怎么理解元橡相关资料里提到的可兼容红外,融合激光雷达、毫米波雷达等?
鲁耀杰:
我们做立体视觉,核心在于三角测量,对于传感器,可见光传感器是其中之一。左右摄像头可见光传感器可以三维成像,那如果把它们变成红外(主动红外或者被动红外)传感器,最后也能得到两个图像,这两个图像我们也能做立体视觉。元橡本身也有另外一条产品线,给特种行业应用,底层传感器就是被动红外的。所以说技术本身是通用的,它可以适配可见光和红外。
而双目视觉和激光、毫米波更多的是一个融合。激光、毫米波与传统视觉准确地说是一种组合,因为这里面有信息的重合。融合是1+1>2,而1+1=2就是组合方案了。双目和毫米波的融合方式,是利用他们本身的特点,做到数据级的融合,把毫米波接进来,能让视觉远距离的精度提升,同时视觉又可以让毫米波原来比较稀疏的点密度变高。两个传感器有机结合,这才是融合。
Tip:访谈后半部分内容整理发布于下篇

