沈向洋院士：计算机视觉的过去、现在和未来- 大数跨境

中国科技信息

2021-07-31

点击蓝字

关注我们

计算机视觉在人工智能里可以类比于人类的眼睛，是在感知层上最为重要的核心技术之一。计算机视觉技术模拟生物视觉，将捕捉到的图像中的数据及信息进行分析识别、检测、跟踪等，真正去“识别”和“理解”这些图像。目前此项技术已经广泛应用到安防、自动驾驶、医疗、消费等，也是目前人工智能技术中落地最广的技术之一。

那么，对于“计算机视觉的过去、现在和未来”，人们又了解多少？日前，美国国家工程院外籍院士、英国皇家工程院外籍院士沈向洋在出席活动时以此为主题进行演讲。

计算机视觉概念

让科技设备成为计算机的“眼睛”

人工智能将成为产业变革的方向已经是一个不争的事实，人工智能处于第四次科技革命的核心地位，也是一个全世界公认的结论。全球正在掀起一场以人工智能为核心的科技竞赛，而作为人工智能关键技术之一的：计算机视觉，也引起广泛关注。

顾名思义，计算机视觉是分析、研究让计算机智能化的达到类似人类的双眼“看”的一门研究科学。即对于客观存在的三维立体化的世界的理解以及识别依靠智能化的计算机去实现。更直接地说，计算机视觉就是让摄像机、电脑这些科技设备成为计算机的“眼睛”，让其可以拥有人类的双眼所具有的分割、分类、识别、跟踪、判别决策等功能。

总之，计算机视觉系统是创建了一套完整的人工智能系统，可以让计算机看见并理解这个世界的“信息”。

发展起点

从1966年的一个“小问题”开始

计算机视觉今天蓬勃的发展和光子电子是密不可分的，从某种意义上来讲，计算机视觉是光子的应用，从计算机视觉角度来讲，首先一定要处理图像，而图像首先要有光子，要看到这个世界。

计算机视觉今天来讲蓬勃发展，实际上计算机视觉蓬勃发展跟计算机、照相机、摄像头到处都是完完全全连在一起，但计算机视觉的问题，实际上一直都是一个非常困难的，也是非常简单的问题，从计算机视觉角度来讲，实际上是想模拟人类的视觉，1966年，一个如今非常著名的MIT暑期项目“Summer Vision Project”，它试图有效的使用暑期工作时间来构建视觉系统的重要组成部分。他们把摄像头设在街道上面，接到计算机上面，看看到底计算机能看到什么？

就是这么一个非常纯朴的1966年提的问题提出后，在接下来这些年，计算机视觉的发展简直是不可思议的。

发展历程

计算机视觉过去这65年

自从AI这件事情发生了以后，计算机视觉的进展非常快。严格意义上来讲，计算机视觉是在60年代逐步发展起来的。这个时期还诞生了人类历史上的第一位计算机视觉博士，即Larry Roberts。他在1963年撰写的论文《machine perception of three-dimensional solids》中将物体简化为几何形状(立方体、棱柱体等)来加以识别(参见下面的示意图)。当时人们相信只要提取出物体形状并加以空间关系的描述，那么就可以像“搭积木”般拼接出任何复杂的三维场景。人们的研究热情空前高涨，研究范围遍布角点特征、边缘、颜色、纹理提取以及推理规则建立等很多方面。；1969年，IJCAI这个会议出现，把AI推到了大家的前面，AI一开始有一批在做计算机视觉的人，觉得自己很特别，跟一般做AI的人想的不太一样；

资料显示，1982年，马尔（David Marr）《视觉》一书的问世，标志着计算机视觉成为了一门独立学科。计算机视觉发展主要经历了三大历程：马尔计算视觉、多视几何与分层三维重建和基于学习的视觉。

马尔计算视觉马尔计算视觉分为三个层次，计算理论、表达和算法以及算法实现。马尔认为算法实现并不影响算法的功能和效果，所以马尔计算视觉主要讨论“计算理论”和“表达与算法”两部分内容。

马尔认为，大脑的神经计算和计算机的数值计算没有本质区别，所以，马尔没有对“算法实现”进行任何探讨。从现在神经科学的进展看，“神经计算”与数值计算在有些情况下会产生本质区别，如神经形态计算，总体上，数值计算可以模拟神经计算。

研究内容与方向

一门研究如何使机器“看”的科学

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。

沈向洋在演讲中设问，计算机视觉这么多人在弄，到底每天大家在做什么？研究的目标在那里？实际上做的一件事情就是大家这么多年一直在寻找一个很好的对图像的表述，必须要找到这样一种东西，才能够和下游的一些工作；它怎么样表述这样的图像呢？

“我就简单总结一下，一共三点。第一，能够解释看到的图像；第二，要可操作，就是说你得要能够“算”；第三，要可以泛化，即使到今天也是很大的问题，现在大家看到计算机视觉问题太散了，大家想举一个大而统的表述，到现在为止仍然非常困难，你想找一个可以泛化的模型，这是怎么去描述这样的图像。”他说。

因此，根据资料内容，计算机视觉的研究内容，大体可以分为物体视觉和空间视觉两大部分。物体视觉是对于物体进行精细分类和鉴别，空间视觉则在于确定物体的位置和形状，为“动作”服务。

目前计算机视觉主要基础和热门的研究方向有：物体识别和检测、语义分割、运动和跟踪、视觉问答。

物体识别和检测物体检测是计算机视觉中非常基础且重要的研究方向。其含义主要是，给定一张输入图片，算法能够自动找出图片中的常见物体，并将其所属类别及位置输出出来。因此，衍生了人脸检测、车辆检测等细分检测算法。

语义分割语义分割是近年来的热门研究方向，也是从字面上容易被误解的技术。其实，语义分割和语音识别一毛钱关系也没有，其真正的的含义是将输入图像的每一个像素点进行归类，用一张图可以清晰地描述出来其内层意义。

可以说，物体检测通常是将物体在原图上框出，而语义分割则是从原图上的每一个像素点进行归类，图片上的每一个像素都有自己的“标签”（类别）。

运动和跟踪跟踪也是计算机视觉的基础问题之一，其研发方法已经由原来的非深度算法跨越向了深度学习算法。目前学术界对于跟踪的评判标注主要是在一段给定的视频中，在第一帧给出被跟踪物体的位置及尺度大小，在后续的视频当中，跟踪算法需要从视频中寻找被跟踪物体的位置，并适应视频中光照变化、运动模糊及表观的变化等。

而实际上，跟踪是一个不适定问题，比如跟踪一辆车，如果从车尾开始跟踪，如果车辆在行进过程中外观发生很大变化，如旋转180度，现在的跟踪算法可能会出现“跟丢”的情况。所以，这一研究领域还有极大提升空间，也不属于非常热门的方向。

视觉问答视觉问题的研究目的是根据输入图像，由用户进行提问，而算法自动根据提问内容进行回答。除此之外，还有一种标题生成算法，即计算机根据图像自动生成一段描述该图像的文本，而不进行问答。对于此类跨越两种数据形态（如文本和图像）的算法，也可称之为多模态或跨模态问题。

“我觉得过去这些年机器学习、深度学习了不起，是因为我们用了很多的数据，绝大多数数据是在网上扒下来，我们有搜索引擎，很多的数据级，比如微软等等，都做得非常好，未来肯定是要更多用机器人，要用自动驾驶，要用新的跟环境互动的方法，收集更多更多数据，未来大规模的这种数据肯定是未来发展的方向。”沈向洋这样预测。

在演讲最后，沈向洋指出，计算机视觉的人一直在寻找越来越好的数据模型。今天了不起的，就是我们有越来越多的数据，越来越多的算力，也有越来越多的任务可以去做，今天你刷脸也好，视频监控也好，自动驾驶也好，机器人也好，甚至是ARVR，都是计算机视觉重大应用，这里面很多机会，计算机视觉也是非常幸运的行业，这么多年蓬勃发展，越来越多的人才冲进来做计算机视觉。

“我也非常希望跟同行们一起思考计算机视觉未来的发展，我们做计算机视觉不止停留在图像，应该跟后面的数据和任务连在一起来做，再次谢谢大家！”他说。

本文部分参考资料：

全面深度解析：计算机视觉的含义、主要研究方向及发展史（https://cloud.tencent.com/developer/news/491131）

计算机视觉简介：历史、现状和发展趋势（https://blog.csdn.net/cf2SudS8x8F0v/article/details/78598730）

人工智能的“眼睛”：计算机视觉究竟有多厉害？（https://blog.csdn.net/qq_42722197/article/details/117138005）

关注公众号了解更多资讯

《中国科技信息》杂志社

主管单位：中国科学技术协会

主办单位：中国科技新闻学会

在线投稿平台：www.cnkjxx.com

投稿电话：010-68003059

寻求报道、内容合作，请联系微信：15811564659

杂志收录情况：《中国知网》《中国期刊核心期刊（遴选）数据库》《中国学术期刊综合评价数据库（CAJCED）统计源期刊》《中国期刊全文数据库（CJFD）》《中国科协、中国图书馆学会（解读科学发展观推荐书目）》

【声明】内容源于网络

中国科技信息

主管：中国科学技术协会主办：中国科技新闻学会国内统一刊号：CN11-2739/N 国际标准标号：ISSN1001-8972 服务定位：媒体引领，元宇宙传播，协同创新，科技、金融、品牌一体化赋能者。 T：010-68003056/7/8

内容 1620

粉丝 0

中国科技信息主管：中国科学技术协会主办：中国科技新闻学会国内统一刊号：CN11-2739/N 国际标准标号：ISSN1001-8972 服务定位：媒体引领，元宇宙传播，协同创新，科技、金融、品牌一体化赋能者。 T：010-68003056/7/8

总阅读4.5k

粉丝0

内容1.6k