计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
计算机视觉就是用各种成像系统代替视觉器官作为输入敏感手段,由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能像人那样通过视觉观察和理解世界,具有自主适应环境的能力。要经过长期的努力才能达到的目标。

因此,在实现最终目标以前,人们努力的中期目标是建立一种视觉系统,这个系统能依据视觉敏感和反馈的某种程度的智能完成一定的任务。例如,计算机视觉的一个重要应用领域就是自主车辆的视觉导航,还没有条件实现像人那样能识别和理解任何环境,完成自主导航的系统。因此,人们努力的研究目标是实现在高速公路上具有道路跟踪能力,可避免与前方车辆碰撞的视觉辅助驾驶系统。这里要指出的一点是在计算机视觉系统中计算机起代替人脑的作用,但并不意味着计算机必须按人类视觉的方法完成视觉信息的处理。
计算机视觉可以而且应该根据计算机系统的特点来进行视觉信息的处理。因此,用计算机信息处理的方法研究人类视觉的机理,建立人类视觉的计算理论,也是一个非常重要的研究领域,这方面的研究被称为计算视觉(Computational Vision)。计算视觉可被认为是计算机视觉中的一个研究领域。
工作原理
计算机视觉系统可以分为:图像采集、处理、运动控制部分。
首先,位置检测器检测到物体的移动,当物体移动到相机系统的视觉中心,检测器马上向图像采集部分发送信号,即触发脉冲。
然后,根据预定程序和延迟,图像获取部分向照相机和照明系统发出脉冲,拍摄机器和光源都启动。
接着,相机重新开始新的扫描。照相机在开始新的帧扫描之前打开曝光机制,并且可以预先设置曝光时间。同时打开照明光源,照明时间应该与照相机的曝光时间相匹配。至此,画面的扫描和输出正式开始。图像采集部分通过 A/D 模式转化得到数字图像或者视频。同时把得到数字图像/视频存放在处理器或计算机的内存中,接着处理器处理、分析、识别图像。
计算机视觉应用:
人脸识别
人脸识别技术目前已经研究得相对比较成熟,并在很多地方得到了应用,且人脸识别准确率目前已经高于人眼的识别准确率,很多高铁站及门禁的地方都用到了人脸识别,很多都有刷脸系统,有些城市甚至在银行取钱都可以直接刷脸。
无人驾驶
随着汽车的普及,汽车已经成为人工智能技术非常大的应用投放方向,但就目前来说,想要完全实现自动驾驶/无人驾驶,距离技术成熟还有一段路要走。不过利用人工智能技术,汽车的驾驶辅助功能及应用越来越多,这些应用多半是基于计算机视觉和图像处理技术来实现。
计算机视觉在无人驾驶中起到了非常关键的作用,比如道路的识别,路标的识别,红绿灯的识别,行人识别等等。另外还包括三维重建及自主导航,通过激光雷达或者视觉传感器可以重建三维模型,辅助汽车进行自主定位及导航,进行合理的路径规划和相关决策。
医学图像处理
常见的医学成像,比如B超,核磁共振,X光拍片等。随着AI技术的发展,开始出现一些AI诊断的功能,AI根据图像的特征对相关疾病的可能性进行分析。医疗数据中有超过90%的数据来自医疗影像。医疗影像领域拥有孕育深度学习的海量数据,医疗影像诊断可以辅助医生,提升医生的诊断的效率。
工业检测
机器视觉可以快速获取大量信息,并进行自动处理。在自动化生产过程中,人们将机器视觉系统广泛地用于工况监视、成品检验和质量控制、产品缺陷检测,控制工业机器人姿态,利用立体视觉来获得工件和机器人之间的相对位置姿态。
图片识别分析
GCT高引学者库的计算机视觉学者库收录了173位在计算机视觉领域近十年有影响力的学者。在这173位学者中,男性157位,女性16位。在H指数方面,有114位学者H指数40+,在论文数量上有114位学者的论文数超过100篇。在学者任职机构上,排在第一的是加州大学,排在第二的是中科院。该库学者的统计信息如下:




在计算机视觉学者库中,根据H指数排名第一的学者是来自牛津大学的Andrew Zisserman教授,不仅如此,他还是该学者库论文被引用总次数最多的学者,共发表586篇论文,被引用总数达到221782次,单篇引用最高的是2014年发表的《 Very Deep Convolutional Networks for Large-Scale Image Recognition》,被引用24348次。

Andrew Zisserman教授是英国牛津大学视觉几何小组的负责人,皇家学会的成员,是现代计算机视觉的主要奠基人之一。安德鲁的研究兴趣包括视觉识别、图像检索、多视点几何以及计算机视觉的其他方面。他在多个顶级计算机视觉会议上获得多个奖项,包括在计算机视觉国际会议上的三个Marr奖。他出版了几本书,包括《Visual Reconstruction》和《Multiple View Geometry in Computer Vision》。
在论文数量上,来自旷视科技研究院的孙剑,以2236篇论文当之无愧的排在第一,论文一共被引用次数达112907次,单篇论文被引用最多的是2015年在CVPR上发表的《Deep Residual Learning for Image Recognition》,被引用26356次。

孙剑博士目前在旷视科技(Face++)担任首席科学家、旷视研究院院长。其主要研究方向是基于深度学习的图像理解、人脸识别。他在顶级学术会议和期刊上发表论文100 余篇,谷歌学术引用60,000 余次,H-index 达76。拥有国际或美国专利40多项。2009和2016年两次获得CVPR 最佳论文奖。2010年被MIT Technology Review评选为“全球35 岁以下杰出青年创新者”。2015年获得ImageNet和COCO图像识别五项冠军, 2016 年获得国家自然科学二等奖,2017 年获得COCO & Places 图像理解大赛三项冠军,2018年获得COCO & Mapillary图像大赛四项冠军。他领导研究的“ResNets”、“Faster RCNN”、“ShuffleNet”等技术目前被广泛应用在学术和工业界。
在学术活跃度上,排名第一的是依图CTO颜水成。

颜水成是原新加坡国立大学电子与计算机工程系副教授,机器学习与视觉研究小组的创始人,今年7月份加入依图出任CTO。他的研究领域包括计算机视觉、多媒体分析和机器学习。他获得了ACM MM'13(最佳论文和最佳学生论文),ACM MM'10,ICME'10和ICIMCS'09的最佳论文奖,2011年新加坡青年科学家奖,2012年新加坡国立大学青年研究员奖。

颜水成学术路线
推荐阅读

