计算机视觉的应用范围与规模是目前人工智能应用中最为广泛与普遍的,且早已深入日常生活与工作的多方面,以至于人们并未感觉到现代人工智能时刻刻存在着,如二维码识别、联机手写输入等。以下介绍了目前计算机视觉的大致应用领域。
模式识别
模式识别(Pattern Recognition)是通过计算机数字技术方法研究模式的自动处理和判别。客观世界中的客体统称为“模式”,随着计算机技术及人工智能的发展,有可能对客体作出识别,它主要是视觉和听觉的识别,这就是模式识别的两个重要方面。其中,与视觉有关的模式识别有:
1. 二维码识别与联机手写输入
二维码识别与联机手写输入是目前使用最为普遍的模式识别应用。二维码识别(QR Droid)是一款基于ANDROID完整的QR二维码识别软件,主要用于生成和扫描QR码。可以通过三种方法获取QR码,第一种是通过摄像头可以轻松扫描QR码,第二种是存储在设备上的QR码图片,第三种是在因特网上的带URL链接的QR码。
微信、支付宝、淘宝、百度浏览器等手机软件可以识别二维码,是二维码技术在手机上的应用。二维码是用特定的几何图形按一定规律在平面(二维方向上)分布的黑白相间的矩形方阵,记录数据符号信息的新一代条码技术,由一个二维码矩阵图形和一个二维码号,以及下方的说明文字组成,具有信息量大、纠错能力强、识读速度快、全方位识读等特点。将手机需要访问、使用的信息编码到二维码中,利用手机的摄像头识读,这就是手机二维码。
手机二维码可以印刷在报纸、杂志、广告、图书、包装以及个人名片等多种载体上,用户通过手机摄像头扫描二维码或输入二维码下面的号码、关键字即可实现快速手机上网,快速便捷地浏览网页、下载图文、音乐、视频、获取优惠券、参与抽奖、了解企业产品信息,而省去了在手机上输入URL的繁琐过程,实现一键上网。同时,还可以方便地用手机识别和存储名片、自动输入短信,获取公共服务(如天气预报),实现电子地图查询定位、手机阅读等多种功能。此外,二维码可以为网络浏览、下载、在线视频、网上购物、网上支付等提供方便的入口。
联机手写汉字识别有时叫做“笔(式)输入”。顾名思义,这是用笔把汉字“写”入计算机,而不是用键盘“敲”入计算机。改敲为写,不需要死记每个字的编码,而是像通常写字那样,用笔把字直接写入计算机,更符合中国人书写的习惯,也实现了汉字实时输入的要求。此外,这种输入方法既可以用于办公室内,也可以用于室外或其他特殊场合,是一种易学易用的较好的汉字输入方法。
笔输入系统中,由书写笔传送给计算机的信号是一个一维的笔画串,而不是方块汉字的二维图形。以汉字“女”字为例,在书写板写这个字时,它的笔画(包括笔画类型及其位置)就按书写顺序依次输入计算机,形成具有一定结构关系的笔画串:“く、丿、一”。从原理上说,把汉字集合每个汉字的笔画串存储在计算机中,就组成笔输入系统的“字典”(标准笔画串库)。在识别某一个待识汉字时,也利用书写板把该汉字的笔画串输入计算机,然后把它跟字典中所有的笔画串逐个加以比较,求得和它最相似的笔画串,就得到识别的结果。
2. 生物特征识别
所谓生物识别技术就是,通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段密切结合,利用人体固有的生理特性(如指纹、脸象、虹膜等)和行为特征(如笔迹、声音、步态等)来进行个人身份的鉴定。全球生物识别市场结构中,指纹识别份额达到58%,人脸识别的份额为18%,紧随其后的是新兴的虹膜识别,份额为7%,此外还有与指纹识别类似的掌纹识别,以及静脉识别等。
人脸识别作为一种生物特征识别技术,是计算机视觉领域的典型研究课题。人脸识别不仅可以作为计算机视觉、模式识别、机器学习等学科领域理论和方法的验证案例,还在金融、交通、公共安全等行业有非常广泛的应用价值。特别是近年来,人脸识别技术逐渐成熟,基于人脸识别的身份认证、门禁、考勤等系统开始大量部署。
一套典型的人脸识别系统包括6个步骤:人脸检测、特征点定位、面部子图预处理、特征提取、特征比对和决策。

Step1:人脸检测,即从输入图像中判断是否有人脸,如果有的话,给出人脸的位置和大小。作为一类特殊目标,人脸检测可以通用上一节中介绍的基于深度学习的目标检测技术实现。但在此之前,实现该功能的经典算法是Viola和Jones于2000年左右提出的基于AdaBoost的人脸检测方法。
Step2:特征点定位,即在人脸检测给出的矩形框内进一步找到眼睛中心、鼻尖和嘴角等关键特征点,以便进行后续的预处理操作。理论上,也可以采用通用的目标检测技术实现对眼睛、鼻子和嘴巴等目标的检测。此外,可以采用回归方法,直接用深度学习方法实现从检测到的人脸子图到这些关键特征点坐标位置的回归。
Step3:面部子图预处理,即实现对人脸子图的归一化,主要包括两部分:一是把关键点进行对齐,即把所有人脸的关键点放到差不多接近的位置,以消除人脸大小、旋转等影响。二是对人脸核心区域子图进行光亮度方面的处理,以消除光强弱、偏光等影响。该步骤的处理结果是一个标准大小(比如 像素大小)的人脸核心区子图像。
Step4:特征提取,是人脸识别的核心,其功能是从Step3输出的人脸子图中提取可以区分不同人的特征。在采用深度学习之前,典型方法是采用上一节所述的“特征设计与提取”及“特征汇聚与特征变换”两个步骤来实现。例如,采用LBP特征,最终可以形成由若干区域局部二值模式直方图串接而成的特征。
Step5:特征比对,即对两幅图像所提取的特征进行距离或相似度的计算,如欧氏距离、cosine相似度等。如果采用的是LBP直方图特征,则直方图交是常用的相似度度量。
Step6:决策,即对前述相似度或距离进行阈值化。最简单的做法是采用阈值法,相似程度超过设定阈值则判断为相同人,否则为不同人。
人脸识别在具备较高便利性的同时,其安全性也相对较弱一些。识别准确率会受到环境的光线、识别距离等多方面因素影响。另外,当用户通过画妆、整容对于面部进行一些改变时也会影响人脸识别的准确性。这些都是当前需要亟待突破的技术难题。
此外基于计算机视觉的生物特征识别技术还有很多,如指纹识别、虹膜识别、掌纹识别、指静脉识别等。其中指纹识别是大家最熟悉、也是相对最成熟的。人类手掌及其手指、脚、脚趾内侧表面的皮肤凹凸不平产生的纹路会形成各种各样的图像。这些皮肤的纹路的图像是各不相同,且是唯一的。依靠这种唯一性,就可以将一个人同他的掌纹、指纹对应起来,通过比较他的掌纹、指纹和预先保存的掌纹、指纹进行比较便可以验证他的真实身份。
此外,人体中具有唯一性的还有手背静脉、指静脉、虹膜特征的生物识别等其他多种生物体特征,它们可以用于人体识别。
人的眼睛结构由巩膜、虹膜、瞳孔晶状体、视网膜等部分组成。虹膜在胎儿发育阶段形成后,在整个生命历程中将是保持不变的。这些特征决定了虹膜特征的唯一性,同时也决定了身份识别的唯一性。因此,可以将眼睛的虹膜特征作为每个人的身份识别对象。从理论上来讲虹膜识别的精度较高,但虹膜识别需要分辨率比较高的摄像头,以及合适的光学条件,成本也比较高。因此,其应用主要集中在高端市场,市场应用面较窄。
掌静脉识别系统一种方式是通过静脉识别仪取得个人掌静脉分布图,依据专用比对算法从掌静脉分布图提取特征值,另一种方式是通过红外线CCD摄像头获取手指、手掌、手背静脉的图像,将静脉的数字图像存贮在计算机系统中,实现特征值存储。静脉识别具有高度防伪、简便易用、快速识别及高度准确四大特点。最为重要的一点是,指静脉识别的特征已被国际公认具有唯一性,且和视网膜相当,在其拒真率(相同结构图,而被算法识别为不同)低于万分之一的情况下,其识假率(不同结构图,而被算法识别为相同)可低于十万分之一。但它同样有着难以规避的缺点:(1)手背静脉仍可能随着年龄和生理的变化而发生变化,永久性尚未得到证实;(2)仍然存在无法成功注册登记的可能;(3)由于采集方式受自身特点的限制,产品难以小型化;(4)采集设备有特殊要求,设计相对复杂,制造成本高。
3. 光学字符识别
光学字符识别(Optical Character Recognition,OCR)也是目前应用最为普遍的模式识别。光学字符识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,即针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别,最后经人工校正更正错误的文字并输出结果。目前常用于多场景、多语种、高精度的整图文字检测识别,对身份证、银行卡、营业执照等常用卡证的文字内容进行结构化识别,对各类票据进行结构化识别,在教育领域对作业、试卷中的题目、公式及答题区手写内容进行识别等多个方面。
4. 遥感
遥感技术是从远距离感知目标反射或自身辐射的电磁波、可见光、红外线,对目标进行探测和识别的技术。人造地球卫星发射成功,大大推动了遥感技术的发展。现代遥感技术主要包括信息的获取、传输、存储和处理等环节。遥感系统是完成上述功能的全套系统,其核心组成部分是获取信息的遥感器。遥感器的种类很多,主要有照相机、电视摄像机、多光谱扫描仪、成像光谱仪、微波辐射计、合成孔径雷达等。传输设备用于将遥感信息从远距离平台(如卫星)传回地面站。信息处理设备包括彩色合成仪、图象判读仪和数字图象处理机等。
通过遥感技术所获取的图像识别,已广泛用于军事侦察、导弹预警、军事测绘、海洋监视、气象观测和互剂侦检等。在民用方面,遥感技术广泛用于地球资源普查、植被分类、土地利用规划、农作物病虫害和作物产量调查、环境污染监测、海洋研制、地震监测等方面。
5. 医学诊断
模式识别在癌细胞检测、X射线照片分析、血液化验、染色体分析、心电图诊断和脑电图诊断等方面已取得了成效。机器视觉相较于人工检视,更稳定、效率更高,成本也得到控制。随着机器视觉技术自身的成熟和发展,它将在现代和未来制造企业中得到越来越广泛的应用。
动态行为分析
图像目标跟踪及目标行为分析是计算机视觉的动态应用,它包括的内容有:
1. 运动目标跟踪
运动目标跟踪是计算机视觉中的一个重要问题。由图像所组成的视频中跟踪某一个或多个特定的感兴趣对象,通过目标跟踪可以获得目标图像的参数信息及运动轨迹等。跟踪的主要任务是从当前帧中匹配上一帧出现的感兴趣目标的位置、形状等信息,在连续的视频序列中通过建立合适的运动模型确定跟踪对象的位置、尺度和角度等状态,并根据实际应用需求画出并保存目标运动轨迹。
运动目标跟踪在军事制导、视觉导航、机器人、智能交通、公告安全等领域有着广泛的应用。例如,在车辆违章抓拍系统中,车辆的跟踪就是必不可少的。在入侵检测中,人、动物、车辆等大型运动目标的检测与跟踪也是整个系统运动的关键所在。计算机视觉领域目标跟踪是一个重要的分支,同时运动目标跟踪为其行为分析提供了基础。
2. 运动目标分析
运动目标分析是在对运动目标跟踪后,即可对其作分析,并最终获得具体语义的结果。运动目标分析是对视频上的运动物体进行跟踪后,获得相应的数据,通过机器学习分析,判断出物体的行为轨迹、目标形态变化,最终获得行为的语义信息。如人体点头行为在设定环境中表示认同对方的意见;而人体摇头行为在设定环境中表示不认同对方的意见。又如人体手势、人体脸部表情等人体行为分析最终都可得到其相应的语义信息。同时,通过设置一定的条件和规则,判定物体的异常行为,如车辆逆行分析、人体翻越围墙分析、人体异常行为分析(如行人违规穿越马路分析、行人跌跤分析等)、军事物区遭受入侵分析等。
图像目标行为分析的典型应用领域有:
(1)智能视频监控领域
智能视频监控是利用计算机视觉技术对视频信号进行处理、分析和理解,并对视频监控系统进行控制,从而使视频监控系统具有像人一样的智能。智能视频监控在民用和军事上都有着广泛的应用,可用于银行、机场、政府机构等公共场所的无人值守。
(2)人机交互领域
传统的人机交互是通过计算机键盘和鼠标进行的,然而人们期望通过人类的动作,即人的姿态、表情、手势等行为,计算机能“理解”其意图,从而达到人机交互目的。
(3)机器人视觉导航
为了能够自主运动,智能机器人需要能够认识和跟踪环境中的物体。在机器人手眼应用中,通过跟踪技术使用安装在机器人身上的摄像机跟踪拍摄的物体,计算其运动轨迹,并进行分析,选择最佳姿态,最终抓取物体。
(4)医学诊断
超声波和核磁共振技术已被广泛应用于病情诊断。例如,跟踪超声波序列图像中心脏的跳动,分析得到心脏病变的规律从而诊断得出正确的医学结论;跟踪核磁共振视频序列中每一帧扫描图像的脑半球,可将跟踪结果用于脑半球的重建,再通过分析获得脑部病变的结果。
(5)自动驾驶领域
在道路交通视频图像序列中对车辆、行人图像进行跟踪与分析,可以预测车辆、行人的活动规律,为汽车无人驾驶提供基本保证。无人驾驶又称自动驾驶,是目前人工智能领域一个比较重要的研究方向,让汽车可以进行自主驾驶,或者辅助驾驶员驾驶,提升驾驶操作的安全性。目前已经有一些公司研发出了自动泊车等辅助驾驶功能并得以应用。如谷歌Waymo无人驾驶汽车,国内也有一些比较好的公司,如百度无人驾驶车已经在一些园区得以应用,还有图森未来的货运车也完成了多次路测,并已经投入市场使用。

机器视觉
机器视觉(Machine Vision)是人工智能正在快速发展的一个分支。简单说来,机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统是通过机器视觉产品(即图像摄取装置,分CMOS和CCD两种)将被摄取目标转换成图像信号,传送给专用的图像处理系统,得到被摄目标的形态信息,根据像素分布和亮度、颜色等信息,转变成数字化信号。图像系统对这些信号进行各种运算来抽取目标的特征,进而根据判别的结果来控制现场的设备动作。一个典型的机器视觉应用系统包括图像捕捉、光源系统、图像数字化模块、数字图像处理模块、智能判断决策模块和机械控制执行模块。

机器视觉系统最基本的特点就是提高生产的灵活性和自动化程度。在一些不适于人工作业的危险工作环境或者人工视觉难以满足要求的场合,常用机器视觉来替代人工视觉。同时,在大批量重复性工业生产过程中,用机器视觉检测方法可以大大提高生产的效率和自动化程度。
由于机器视觉可以快速获取大量信息,而且易于自动处理,人们逐渐将机器视觉系统广泛地用于天文行业、医药行业、交通航海行业以及军事行业领域等。在国外,机器视觉的应用相当普及,主要集中在电子、汽车、冶金、食品饮料、零配件装配及制造等行业。机器视觉系统在质量检测的各个方间已经得到广泛的应用。而在中国,视觉技术的应用开始于90年代,机器视觉产品刚刚起步,目前主要集中在制药、印刷、包装、食品饮料等行业。
此外,由于机器视觉技术比较复杂,最大的困难在于人的视觉机制尚不清楚。人可以用内省法描述对某一问题的解题过程,从而用计算机加以模拟。但尽管每一个正常人都是“视觉专家”,却不可能用内省法来描述自己的视觉过程。因此建立机器视觉系统是十分困难的任务。可以预计的是,随着机器视觉技术自身的成熟和发展,它将在现代和未来制造企业中得到越来越广泛的应用。
(人工智能知识系列由樊重俊教授人工智能团队撰写,转发本文请标明作者与出处。欢迎关注,带你一起长知识!文中部分图片来源于网络,如有版权问题请联系作者删除。)


