DS洞察 | 计算机视觉的前世今生- 大数跨境

首页

DS洞察 | 计算机视觉的前世今生

德森创鑫

2019-10-07

导读：计算机视觉目前是人工智能最热门的细分领域，已成为各行业转型升级的重要支撑。

版 DS 导读：

计算机视觉目前是人工智能行业最热门、最受资本追捧的细分领域之一，已成为各传统行业转型升级的重要支撑。

其应用场景近几年来遍地开花，安防摄像头、人脸识别闸机到智能手机的解锁与支付，相关技术已渗透到人们日常生活的方方面面。

本篇文章，小编将为大家回顾计算机行业的发展史，分析行业成长的核心驱动力。

并详细阐述计算机视觉的场景应用及商业案例，深入解读行业未来发展的趋势。

全文约3773字，阅读时间约：13分钟。

从人类视觉到计算机视觉

视觉，是人类感知世界最直接的方式。人的大脑分配了大量的资源用于视觉，对视觉的“投入”比听觉、味觉、嗅觉多得多：40%-50% 的神经元都与视觉功能有关，在大脑顶层 IT 区尤为密集，视觉占据人类感官系统的 80%。

然而，人类一方面受本身生理结构的局限，很多东西仅靠人类的眼睛和大脑难以进行观测或分析；另一方面，整个社会在面临智能升级，各行业对机器拥有“视觉”的诉求日益增长。因此，人类开始研究如何教会机器如何去“看”，计算机视觉就这样诞生了。

计算机视觉指用计算机来模拟人的视觉系统，实现人的视觉功能，以适应、理解外界环境和控制自身的运动。

目前主要解决物体识别、物体形状和方位确认以及物体运动判断这三个问题。

行业探索始于上个世纪 50 年代，

近 10 年迎来高速成长期

数据量、运算力及算法模型是行业成长的重要支撑

版海量数据催化计算机视觉的精度提升

2000 年以来，得益于互联网、社交媒体、移动设备和传感器的普及与发展，这个世界产生并存储的数据量急剧增加，为通过深度学习的方法来训练计算机视觉技术提供了很好的土壤。

据 IDC 预计2020 年达到近 40ZB（1ZB 约为 10 亿 GB )，海量的数据将为计算机视觉算法模型提供源源不断的素材，助力机器视觉的精准度提升。

版 GPU 革新持续推动运算力的发展

1999 年，Nvidia 公司在推销自己的 Geforce 256 芯片时，提出了 GPU (Graphics Processing Unit, 图像处理器) 这个概念。

GPU是专为执行复杂的数学和集合计算而设计的数据处理芯片。它的出现让并行计算成为可能，对数据处理规模、数据运算速度带来了指数级的增长与改善，极大的促进计算机视觉的发展。

随着对人工智能各类应用需求的不断增强，专门用于加速人工智能应用的 AI-PU 或将成为计算机另一个标配组件；

版深度学习极大提高视觉识别准确率

2006 年，Geoffrey Hinton 和合作者发表论文，“A fast algorithm for deep belief nets”，此后“Deep Learning（深度学习）”的概念被提出。

深度学习出现之前，基于寻找合适的特征来让机器辨识物体状态的方式几乎代表了计算机视觉的全部。

尽管对多层神经网络的探索已经存在，然而实践效果并不好，深度学习出现之后，计算机视觉的主要识别方式发生重大转变，自学习状态成为视觉识别主流。

即机器从海量数据库里自行归纳物体特征，然后按照该特征规律识别物体，图像识别的精准度也得到极大的提升，从 70%+提升到 95%。

场景应用逐渐拓宽，市场规模有望保持高速增长

计算机视觉是人工智能领域中落地最顺利的技术，和语音相比，计算机视觉是一条更有技术深度，更多应用场景的赛道。

自 2017 年起，从应用场景看市场规模较大的领域除了平安城市人脸识别、金融业人脸身份验证、互联网行业的VR/AR 之外，智慧城市中的车辆识别、手机领域的人脸解锁、智能相册也是较大的应用场景。

此外，在机器人、手持终端以及零售业，图像识别、物体检测等计算机视觉应用也在崛起。IDC 分析了计算机视觉技术在各应用场景下的价值。如下图所示：

据 IDC 预测到 2022 年，中国计算机视觉应用市场规模将达到 146.08 亿元人民币。 预计在最近 1-2 年内计算机视觉应用将保持高速增长的领域有：政府安防、泛金融以及手机应用。

而从未来行业复合增长率来看，计算机视觉在移动设备、自动驾驶汽车、智能家居以及行业自动化领域的应用将实现超过 80%的增长。

计算机视觉技术与传统行业深度融合，

多个应用场景已进入商业化阶段

根据中国机器视觉产业联盟（CMVU）调查统计，我国目前有 200 多家计算机视觉企业，包括商汤科技、旷视科技、依图科技及云从科技等独角兽公司，涉猎安防影像、身份认证、工业制造、医疗影像等众多应用领域。

我们从技术应用层面进行分类，看一下主要场景及较为成熟的商业案例：

版技术应用：人脸识别

人脸识别包括图像采集、检测定位、特征提取、模型对比等步骤。按照技术难度的不同，人脸识别可分为 1：1 和1：N 两种人脸识别应用。

1:1 识别难度相对较低，通常识别对象较为配合，场景多用于证明自己身份的场景，包括机场安检、银行远程开户、上班考勤及公司门禁。

而 1:N 识别难度相对较高，通常识别对象不用感知到摄像头的位置或进行配合，识别的图像为动态的视频流，且光线、遮挡等因素都会影响识别准确度。

场景多用于日常状态下的身份鉴定，包括疑犯追踪、商场用户画像分析、防暴预警及人流分析。

应用场景：泛金融身份认证领域/安防行业/智慧商业

商业案例 1

打车软件的人像认证：Uber 与滴滴均已开始使用“人脸认证”以确认司机身份，在注册前、行车中均可通过“人脸识别”、“声纹识别”等生物识别技术对司机的身份信息进行确认，认证通过后司机才可以接单。

商业案例 2

亚马逊无人便利店 Amazon Go：利用计算机视觉、深度学习以及传感器融合等技术，无需在结账柜台前排长队等待，走出门店既完成了结账买单。

版技术场景应用：光学字符识别

光学字符文本识别技术又称 OCR 技术（Optical Character Recognition)。

计算机利用光学设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程，完成计算机对文字的阅读。

在具体应用中，只要存在字符信息录入、印刷文件处理、表单验伪等需求的行业，均为 OCR 的潜在应用行业。

应用场景：金融/物流/保险行业的证件识别及单据识别。

光学字符文本识别技术又称 OCR 技术（Optical Character Recognition)。

在具体应用中，只要存在字符信息录入、印刷文件处理、表单验伪等需求的行业，均为 OCR 的潜在应用行业。

应用场景：金融/物流/保险行业的证件识别及单据识别

商业案例

Mitek公司采用视觉算法（核心是光学字符识别）软件对银行交易中的无数 ID 格式进行分类。它扫描文档并将数据转换为可编辑的格式，可以使用人工智能调整 OCR 软件以准确提取个人签名或指纹。

版技术场景应用：物体与场景识别

物体与场景识别是指计算机将图片内容与数据库中的资料进行比对，进而识别图片或视频中各种物体与场景的技术。

由于同类物体的形状、颜色不一，难以寻找同一规律，因此目前物体识别技术仍在早期阶段。

识别的过程与人脸识别相类似，即通过检测定位、特征提取、三维建模、模型比对的过程进行物体的识别。

因此，这个领域很多公司着力于给不同图片打标签，帮助机器学习同类物体的不同形态，用大的数据量来帮助训练物体识别算法模型的精准度。

应用场景:消费生活/自动驾驶/医疗影响分析/工业生产

商业案例 1

Airdo是将深度学习用于医疗诊断的代表性企业之一。

公司取用大量的糖尿病视网膜病变患者眼底照片来训练了一个深度网络模型。该模型的样本使用量远超人类医生的诊断量，因此可以被看作是一位具有丰富经验的智能医生。

模型对有明显症状和无明显症状的分类准确率已经能够与三甲医院的自身医生相媲美，而对糖尿病严重程度的 5 分类准确率也能达到专业眼科医生的水准。

除了诊断眼部病变外，Airdoc 还提供了皮肤、心血管、肺部等其他器官病变的诊断业务。

计算机视觉技术在多器官、多病种诊断方面的优势已经逐渐展现。未来智能医疗有望成为医生诊断的重要辅助手段，甚至有望在部分领域取代人类医生。

商业案例 2

ZDT 零件故障预测

预测性维护是指使用机器学习和物联网设备监控机器和组件（通常使用传感器）收集数据点并识别信号或在资产或组件发生故障之前采取纠正措施的过程。

由 FANUC 开发的名为 ZDT（零停机时间）的软件程序，从安装在机器人上的相机收集图像，然后将这些图像和伴随的数据发送到云进行处理并进行识别，及时发现可能出现的潜在问题。

在为期 18 个月的试点期间，该解决方案被部署到38 个汽车工厂的 7,000 个机器人中，共 6 个部分，检测并防止了 72 个组件故障。

版 DS观点

从资本关注来看，DS 认为资金将向头部企业集中，持续加速商业化落地。

2018 年被称作资本寒冬，然而在大环境不好的背景下，我国计算机视觉行业投融资却逆市增长，计算机视觉行业实现融资额 335 亿元，融资事件 434 起，相比2017 年单笔融资金额更高，资金向头部企业集中。

从获得巨额融资的企业的例子不难看出，资本更青睐于拥有底层核心算法研发能力并在垂直领域有商业化落地的企业，因此，掌握闭环、垄断性的数据，并且其技术能够与实际应用场景结合的公司将产生巨大的商业价值。

从市场趋势来看，DS 认为未来算法迭代将持续为传统商业赋能并渗透至更多的行业应用。

以人脸识别为例，其相关技术近年来不断突破，误报率从 2015 年的千分之一下降至2017 年的十亿分之一。目前，人们在商业服务、城市安全、大众娱乐等诸多场景中已经可以体会到不同层次的智能升级。

对商品、道路环境、医疗影像及遥感影像等更多对象的识别、分类问题，人脸识别将逐步从仅做辅助补充的非关键性应用拓展到切实提升核心业务效率的关键性应用上来。各行各业的创新型智能应用将纷至沓来，千亿级的市场规模未来可期。

从企业发展来看，DS 认为计算机视觉企业的发展将出现软硬件结合化、垂直化及个性化。

对于更为广泛的传统行业或线下使用场景的潜在客户，计算机视觉的技术落地往往涉及对具体业务场景的硬件设备改造、软件集成以及本地计算设施的部署。

考虑到不同行业之间的壁垒非常深，算法、技术的实际功效更需要建立在对客户真实业务场景的深层理解之上的针对性开发。

作为人工智能细分领域中发展最快、应用最为广泛的技术之一，它如同人工智能的“眼睛”，为各行各业捕捉和分析更多信息。

随着算法的更迭、硬件算力的升级、数据的大爆发，以及未来的 5G 带来的高速网络，计算机视觉的应用将会有更大的想象空间。

本文由“德森创鑫”原创发布，

未经授权，不可转载。

商务合作：business@dsinno.com.cn

内容投稿：pr@dsinno.com.cn

【声明】内容源于网络

德森创鑫

德森创鑫(DS.Inno)是洪泰智造旗下的创新场景应用服务商，通过场景咨询、场景升级、场景落地、资本助力等赋能创新企业，挖掘和重塑人工智能、区块链、云计算等新兴技术的场景应用价值，推进企业和行业的数字化转型，共建中国数字商业新生态。

内容 398

粉丝 0

德森创鑫德森创鑫(DS.Inno)是洪泰智造旗下的创新场景应用服务商，通过场景咨询、场景升级、场景落地、资本助力等赋能创新企业，挖掘和重塑人工智能、区块链、云计算等新兴技术的场景应用价值，推进企业和行业的数字化转型，共建中国数字商业新生态。

总阅读896

粉丝0

内容398