观点 | 请回答2019，别误会AI（上）- 大数跨境

观点 | 请回答2019，别误会AI（上）

苏宁科技

2019-07-03

导读：在创造未来的领域，人工智能用自动化的知识去解决问题。AI技术正在重塑企业和社会，在制造、零售、金融、医疗、物流等多个领域帮助企业获得巨大效率提升。若要抓住这个机遇，企业不但要有创新发展意识，也要对AI

计算机科学家、图灵奖得主阿伦·凯说：“预测未来最好的方法，是创造未来。”

在创造未来的领域，人工智能用自动化的知识去解决问题。AI技术正在重塑企业和社会，在制造、零售、金融、医疗、物流等多个领域帮助企业获得巨大效率提升。若要抓住这个机遇，企业不但要有创新发展意识，也要对AI的发展方向、潜在风险、技术途径等有更深入的了解。

值得警惕的是，苏宁零售技术研究院在研究AI发展的整体态势时，发现公众、媒体甚至相关行业人士都对AI存在很多误解。泡沫化发展不但会带来人力和资本的盲目投入，更会导致错失发展窗口。

误解1

“人工智能与人类大脑一样工作。”

这是一个流传甚广的看法，而其实目前的AI，作为一个包含一系列智能化工具的学科，与人脑的工作方式差别巨大。对AI的设计受到人脑工作机制的启发，但绝不是简单地复制。

在学习方式上，AI中广受关注的深度神经网络模型，通过一种称为BP（Back-Propagation，即后向传播算法）的方法训练。BP算法由网络正常运行时信号的正向传播与调节网络参数时误差的反向传播两个过程组成。在反向传播过程中，首先通过对网络输出层的监督，计算网络输出的误差，其次将误差“反向”传播给网络结构中的各隐藏层（由于这些网络层位于输入层和输出层之间，不能被直接观察到，因此称为隐藏层），误差被分摊给各层的各个单元，最后获得各层各单元的误差信号，并将其作为修正各单元权值参数的根据。基于BP算法原理训练的神经网络，在一些领域有接近甚至超过人类的表现，比如图像识别、下围棋、搜索与推荐等，但这种训练是依赖误差的反馈进行权值参数的调节，与人类的学习方式截然不同。

有一些AI的功能非常强大，比如在图像识别领域，AI可以比人类更加可靠地捕捉隐藏在数据中的微弱变化，可以在极其复杂的图像画面中发现异常或者相似之处。然而，AI只能圆满地解决一个预先训练过的任务，即使任务的条件只改变一点点，它也可能会失败。

例如，在智能制造业的应用中，我们可以利用AI视觉模型对机械部件的图像进行准确而且快速的故障检测，肉眼难以注意到、或者容易遗漏的一些故障，如松动的螺栓、金属表面的刮痕、细小的裂缝等，AI视觉模型能够轻易地发现。然而，当我们把这个模型迁移到另外一个工厂中，用于另外一个完全不同类型的机械部件的检测时，就会发现它几乎不能正常工作。这是因为这类模型往往基于图像分割（Image Segmentation）技术和残差卷积神经网络（Residual Convolutional Neural Network）构建，其底层的数据建模过程严重依赖大量的、在特定机械结构上人工标注的示例。对网络没有“见过”的新的机械部件，它有可能完全不能理解。在这一点上，人类工人则具有明显的优势，他们更加善于举一反三，在不同工厂之间工作似乎不成问题。

科学家也在进行复制人脑认知能力的努力，这一类研究被统称为AGI（Artificial General Intelligence，即通用人工智能）。要实现AGI还需要很多年，也有一些专家认为永远不会发生，因为目前的AI，其工作方式和人脑认知的过程相去甚远。

基于对AI的学习方式和目前能力程度的理解，建议相关专业人士做到以下三点：

1. 清楚地认识到：目前，AI既不能像人一样思考，也难以理解对人来说很简单的常识；

2. 对于深度依赖行业经验、错综复杂的业务问题，不要全部抛给AI系统自动学习，而应该从这些大的业务问题中分解出适合统计建模的子问题，再交给AI处理；

3. 来自不同应用环境的AI解决方案之间目前还难以互通，很多情况下不同方案的直接迁移和复制会导致系统难以运行，应当尽量避免。重点应该放在那些对不确定因素依赖少、目标定义清晰的方案上。

误解2

“人工智能是不会出现偏差的。”

我们要认清一个现实：AI不但会出现偏差，而且偏差是无法完全避免的。数据收集、数据集筛选、人工标注结果的融合、分析和评价标准的选择，这些过程中的任一点都可能会有偏差产生。AI模型的构建和选择、AI系统的训练和迭代，都是由AI专家来完成的，不可避免地会带上个人因素，由此都会产生偏差。

例如，深度网络在人脸识别领域取得了显著的性能提升，激发了诸多有趣的应用，除了基本的身份识别外，AI还能对年龄、性别、样貌进行辨别，甚至找出不同照片之间的相似性，如在数码相册里把同一个人的照片进行自动归档。

如果我们不足够重视AI可能存在的偏差及由此引发的错误，就可能产生严重的后果。在一个真实的案例中，AI将某个人种的集体样貌与动物的面部图像发生了混淆。一些不理解AI模型来龙去脉的人，会认为这一结果带有严重的种族歧视，在公共平台上广为部署这项技术会产生严重的影响。

我们需要多样化背景的专家团队，来辨识AI技术可能带来的方方面面的风险，让人类审查员介入到审查环节中去，避免AI可能犯的“愚蠢”错误。更进一步，如果我们理解上面例子中的人脸识别错误为什么会发生，我们就能意识到不断扩充数据集和提高数据质量的重要性。某个人种的面部特征如何在深度网络中表征和构造，会受到其数据样本量的很大影响。同时，如果数据集中存在某些动物的图像样本，由于网络训练过程中不正确的收敛，虽然在同源的测试数据上没有发生错误，但这并不意味着潜在的特征表征是正确的。

在上面的人脸识别的例子中，就发生了严重的偏差。在这个真实的案例中，现实的补救手段是将整个识别引擎的功能下架。

那么，我们应当怎样尽量减少AI的偏差、降低风险？我们想给出四点建议：

1. 建设多样化的AI专家团队。这个专家体系应覆盖不同的专业领域、业务领域、性别、年龄和文化背景等等，以此来减少偏差。在此基础上，对工作进行更多的交叉审查。

2. 提高数据集质量。不断检验和纠正用于训练的AI数据集，尽可能扩大标注团队的人员数量，将人工标注导致的偏差最小化。你需要使用统计工具和数据探索平台排除错误数据、检查异常值，比较和验证不同样本的代表性。

3. 提前评估AI风险。你需要避免自动决策、预测或其他AI系统输出中的偏差或明显错误。可以这么做：（1）避免完全由AI独立运行的系统，加入“防护栏”机制，检测出不符合业务常识的错误结果；或者让人参与到工作流程中，审核人工智能系统输出的结果；（2）应用集成学习，将多个模型和算法进行比较，如果差异太大、可信度太低，就让人类专家进行干预。

4. 主动识别风险。加强预期管理以及利益相关者的管理，预防AI本身的偏差在安全、隐私、财务、法律、合规性和公关等各方面引起风险。

误解3

“人工智能就是算法和模型。”

这是一种对AI的过于简单化的看法。构建和应用机器学习算法来创建一组模型，通常只是AI项目中最简单的部分。为了让AI的算法和模型能够成功地运行，最关键的是要建立有足够数量的高质量的数据集。AI项目最大的难点是什么？是要找到可以落地、可以盈利的使用场景。

例如，在医疗领域的AI应用中，对医学知识和医院实际情况的了解至关重要。医疗数据往往需要做大量的数据清洗工作，以提供一个高质量的、AI模型可以理解的数据集。不同医院之间的信息系统可能互不相通、数据格式差别很大，医院要保护病人隐私数据，医生手写的病历也对文字识别程序构成很大挑战。要辨识出这些具有挑战的问题，需要对医疗行业有深入的理解。在具备基础性的医疗数据后，还需要准确的挑选出那些适合AI技术解决的问题。对疾病特征的统计、对医学影像的自动识别和解读、对相似病例的聚合，以及在此基础上的辅助诊断、预测等，都是AI可能解决的问题。但是，我们不能过于乐观，医疗场景中对错误的容忍度很低，每一步AI技术的落地都牵涉到诸多复杂的业务因素。

那么，我们应该怎样去定义AI能够解决的业务问题呢？以下两点可能会有帮助：

1. 通过咨询相关的行业资深人士，对AI需要解决的问题进行准确的定义，充分考虑任何突发的问题，全面研究问题的约束条件，以建立有效的模型。

2. 扩展和调整数据收集与管理的策略，包括管理、治理、安全、隐私、共享、协调等各个方面的策略。

误解4

“人工智能和机器学习是相同的，可以互换。”

这两个概念常常被混淆，而实际上，ML（Machine Learning，机器学习）只是AI的一个重要的子领域。ML通过一个被称为“训练”的过程，使机器能够在没有明确编程的情况下，从数据中“学习”规律，并利用规律对未知数据进行预测。ML会用到概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科的交叉来分析问题、构建模型。目前，从自动驾驶到信用卡安全保障，再到购物网站和APP的“千人千面”等，ML都有广泛的应用。

误解5

“智能机器能够自动学习。”

智能机器真的能“自动学习”吗？并不是。ML可以自动确定必要的参数，生成ML程序或模型。然而，在此之前的步骤，如：在上下文中构建问题框架，清洗和准备数据，确定适当的数据集并拆分输入和输出部分，确定输入和输出的最佳编码，消除训练数据中的潜在偏差等，大部分不能自动完成，需要经验丰富的数据科学家来建立环境、指导数值优化，然后帮助整个过程的实现。模型建成之后，一般也不会自动更新。如要进行更新，往往需要再次执行这一整套流程，才能将新知识和新数据集成到下一个模型中。

目前机器学习的主流方法是“统计机器学习”，我们从足够多的数据样本中，通过统计的原理，建立针对各种应用问题的模型。在这个过程中，“学习”需要一个前提条件，这个条件就是“假设”。我们不得不对需要学习的问题进行一个假设，如假设数据样本是符合高斯分布的，然后再去使用各种算法估计高斯分布模型的参数，就是将模型的结构与参数的设置进行自动化的遍历和选择如均值、方差等。在这样的统计框架下，不对问题进行“假设”，是无法学习到任何有价值的信息的。因此，人类专家的指导，就显得格外重要。此外，对于那些影响AI模型的关键结构和参数，我们往往无法从理论上获得，也就无法令机器完全地自动学习，我们不得不退而求其次，在实验中不断地尝试和完善模型的结构与参数的设置。当前，最接近“自动学习”的技术，也不过是对上面这个不断尝试的过程进行自动化。例如，谷歌推出的“AutoML”(Automatic Machine Learning)，就是将模型的结构与参数的设置进行自动化的遍历和选择，与真正意义上的自动学习还有较大差距。

所以，如果要把ML运用到实际工作中去，你应该采取的步骤是：

1. 让数据工程师进行数据清理和准备，让数据科学家进行功能和模型的构建，将业务问题转化为ML设置。一旦这个设置可用，就将预测模型转移到业务线进行部署。

2. 定期审查，以评估模型预测结果的能力，并确保应用正确的判断阈值和决策规则。生成相应的报告，评估出模型所做预测的准确性。

本文为苏宁零售技术研究院系列文章《请回答2019，别误解AI》（上），还有哪些AI迷雾亟待消解？系列下篇即将推出，敬请期待。

【声明】内容源于网络

苏宁科技

苏宁技术官方号。解读前沿零售技术，分享苏宁技术实践。

内容 623

粉丝 0

苏宁科技苏宁技术官方号。解读前沿零售技术，分享苏宁技术实践。

总阅读54

粉丝0

内容623