

人工智能应用基础和工程挑战（内附视频）

MoPaaS魔泊云

2023-01-27

导读：分享的内容主要包括以下面几个方面的内容：第一：人工智能的发展、企业应用以及工程的挑战；第二：人工智能应用的基础和大模型；第三：人工智能应用和工程的陷阱和规避，以及如何应对AI工程上的挑战。

上海殷泊信息科技有限公司创始人和CEO鲁为民博士，在前不久“人工智能企业应用和工程挑战”线上沙龙上做《人工智能企业应用基础和工程挑战》主题演讲，与各位参会行业同仁分享了人工智能企业应用和工程挑战上的心得和体会。本文基于本场分享的内容并增加了一些最新的大模型AI技术和应用发展相关材料。

分享的内容主要包括以下面几个方面的内容：第一：人工智能的发展、企业应用以及工程的挑战；第二：人工智能应用的基础和大模型；第三：人工智能应用和工程的陷阱和规避，以及如何应对AI工程上的挑战。

人工智能技术的发展

人工智能技术和应用近年来在不断地颠覆人类的认知。但人工智能技术发展起起伏伏，经历了不平静的历程，在几代人不懈的努力下，终于开花结果。上个世纪50年代前的一系列相关研究，包括Turing的计算理论、Wiener的控制论、Shannon的信息论、以及神经科学等的新发现催生了人工智能科学的建立。80年代初，Hopfield发现使用神经网络可以学习和处理信息，与此同时Rumelhart和Hinton普及了一种“反向传播”神经网络的训练方法。这两项发现有助于振兴基于神经网络的机器学习方法。但人工智能技术应用的突破首先从计算机视觉模型逐渐并进入各个领域，本世纪10年代深度学习或深度神经网络(DNN), 特别是LeCun的深度CNN (卷积神经网络)和RNN(递归神经网络) 的研究促进了图像和视频处理、文本分析甚至语音识别的跳跃性发展。最近几年由于变换器（Transformer）和耗散（Diffusion）模型技术的创新发明，以及DNN伸缩规律的确认，催生了当今基于大模型的人工智能应用的兴起,包括Dall E、Stable Diffusion、Midjourney、LaMDA以及ChatGPT的层出不穷的生成人工智能颠覆性应用已经出圈。

AI技术的企业应用场景

另外，人工智能技术在企业应用也越来越广泛，已涵盖各种应用场景，比如：

在金融服务方面，人工智能应用于欺诈检测，通过AI 算法检测交易异常模式。此外，算法交易也已经有很多年的历史，特别是现在很多对冲基金通过人工智能来实现比人工更好的交易结果。据估计到2024年，算法交易规模将超过$190亿。
在医疗保健方面，人工智能可以有效地应用于精准医疗，个人的健康随其生活方式和基因而异。不仅仅可以通过AI提供个性化医疗治疗方案，同时它也可以用AI来识别和预测潜在的健康问题。另外计算机视觉AI 也用于诊断和外科手术，AI帮助诊断疾病(比如皮肤癌)，并在手术中提供必要的辅助。
在生命科学方面，利用实验产生的大数据集，AI 可以预测某些化合物之间如何相互作用，以及药物如何与目标作用，进而用于药物发现。同时AI可以有效地预测疾病传播，比如通过AI模型预测病毒的传播和影响，让公共卫生决策者利用AI 制定合适的政策、准备资源以最大限度地减少峰值并减轻医疗系统的压力。
在交通运输方面，AI广泛的用于优化运输路线和基础设施。比如通过预测航线需求，AI模型可以帮助航空公司就航线提供明智决策，使得利润最大化，同时维持客户忠诚度。另外运输公司利用AI进行货运管理，AI可以帮助卡车司机规划最佳路线，以减少运费，运输时间以及企业碳足迹。
在电信服务方面，AI可用于通信系统的网络优化，监控和改进网络，提供最佳性能，例如适应不断变化的流量并快速解决异常。此外通过AI协助预测性维护，通过预测算法来识别潜在问题。
在能源方面，AI可以利用无人机以及其他图像来源的数据来对电力系统、设施，进行故障检测。另外AI 可用于预测能源需求，特别是随着向可再生能源转换的继续，AI可以帮助企业合理地利用存储能源，并优化能源的利用决策，比如需要存储多少太阳能。这也是一个很大的市场，特别是在中国，为了实现碳中和碳达峰的目标，AI也能起到很大的作用。
在工业制造方面，AI 生成模型可用于工业设计，AI 可模拟工程师的设计方法，并输入参数，例如材料，尺寸，重量，强度，制造方法和成本限制，创建所有可能的结果。此外生产企业可以通过边缘AI，分析从分布的传感器收集的数据集，提高生产质量和产量，降低性能恶化和故障风险，并跟踪工人健康和安全。

当然要实现企业AI落地，企业关切的首要问题可能是是AI能否可以带来只够的商业价值，对AI的投入能否获得足够的产出？虽然现在各种各样的大模型层出不穷，而且应用越来越广泛，各种能力不断涌现，但是大家仍然在问怎么去赚钱。所以实现合适的ROI（投入回报比）是我们首先要解决的问题。除此之外，企业还面临其它更多的问题，虽然我们可以比以往更容易地获得ML预训模型，但实际在真正的落地时，仍然需要投入人力去实施。虽然行业一直在培养积累人工智能的人才，但是AI工程应用这方面的人才现在还是很短缺。要理清这些问题，我们先了解AI工程的一些基本问题。

人工智能工程

AI技术通过一系列工程操作来落地到具体的应用场景。我们先来了解下典型的机器学习（ML)系统流程（下图）。首先要通过ML来利用数据来训练合适的AI模型。获得ML模型并不是终点，因为模型是预测推理工具，最终是要将其应用到AI的应用场景里，比如把模型部署到生产环境中，通过它提供的服务来来进行推理和执行其它任务。另外，模型不仅仅可以通过数据进行训练来获得，还可以利用成千上万的预训练好的模型，用户可以直接地将预训练模型拿来，经过微调之后就可以部署在生产环境当中。在运行过程当中，还需对生产环境和服务不断监测，不断收集运行数据。一方面通过数据分析了解系统的运行状态以保证人工智能系统的健康运行，另一方面可将一部分用于更新训练数据，并对模型重新训练或微调来进一步优化模型，从而让模型性能更好。在整个工程流程中，人工智能模型是中心。

人工智能技术工程应用现状：喜忧参半

但AI应用落地，AI模型是关键。但适合特定场景的AI 模型并不是唾手可得。而且即使有了AI模型以后，AI应用落地还有很长的路要走。目前企业AI工程落地主要与模型和运维有关，其现状喜忧参半，体现在下面四个方面：

首先是大。AI模型层出不穷，它的规模越来越大，架构也越来越复杂，性能不断地攀新高，这是好的方面；坏的方面是训练运行成本以及它所产生的环境的影响，带来的成本会越来越高；

第二点是多。新的模型不断的涌现，目前各类模型超过30万，并且呈指数的增加，要真正找到适合自己应用场景的模型，如大海捞针；

第三点是广。人工智能的模型涵盖各个领域，我们现在所做的像自然语言处理，计算机视觉，语音，时序，强化学习，以及生成人工智能等各领域，大家都能找到相应的模型，但是大多数预训练模型仍然需要迁移的训练，这个并不容易；

最后一点是散。散的意思模型在众多不同的开发群体中进行开发，它的模型分布很难被发现、匹配。

人工智能应用落地关键在于模型的获取，不管是自己训练或者使用第三方的模型，但是你必须发现它匹配它，最后，把它迁移、部署和伺服到应用生产环境，同时要对AI系统进行持续的监控和运维（ModelOps)，保证人工智能系统稳定安全的运行。另外，人工智能系统也面临一些新的安全风险，这也对AI工程呈现新的挑战。所以AI应用并不是只要把数据输入到模型，模型就可以输出价值这样简单。实际上AI应用场景中模型只可能占一小部分，要让应用能够真正的来体现它的价值，我们要做的工作还很多，这就是AI的应用工程。人工智能工程还面临很多挑战。

“机器学习是邋遢的学科”

我们接下来了解下AI工程基础，特别是机器学习(ML)的基本问题。实际上机器学习还是一个很年轻的学科，图灵奖获得者和深度学习的教父LeCun曾坦承：“机器学习是一个邋遢的学科（Machine learning is the science of sloppiness）！” 虽然可能是开玩笑，但也表明机器学习距离成为一个成熟的学科还很远。

机器学习原理的难以把握，不仅仅在于它的年轻不足够成熟，还在于生成众多错综复杂的概念。如下图“机器学习丛林”所示，机器学习使用的千姿百态的行话中可能一些是借用其它学科的名词，另一些是来自不同背景的研究者看似随意的命名。因此要真正了解人工智能，还需要突破现象看本质。我希望接下来能够和大家一起来了解梳理一下机器学习或者人工智能工程应用方面的一些基本概念，让大家来了解机器学习的的基本原理，便于更好地应用人工智能。

人工智能模型生态

新的机器学习的方法和模型不断涌现，我们怎么能够在层出不穷各种各样的模型中找到出合适自己应用场景的模型？我们首先了解下ML模型的生态。虽然模型众多，但基本上不外乎是这四类元素和方法生成：首先是各种各样的模型训练学习方法和架构，像监督学习和非监督学习，还有AlphaGO使用的强化学习，还有最近比较火的生成学习，还有怎样利用预训练好的模型来应用到不同场景的迁移学习，这些ML方法有可能都不完全能解决某些复杂问题。我们还要把人的干预加进去，Human in the loop，或人在闭环中的学习等等。另外是机器模型的基本构成模块，比如机器学习的机制，像卷积神经网络、Transformer变换器，最近火的Diffusion Model扩散模型，还有已经存在很久的反馈机制。综合这些因素，我们才能高效训练出一系列预训练模型，比如谷歌最先应用Transformer变换器所发明的预训练模型BERT和文本学习的Transformer模型T5，还有OpenAI开发的GTP-3，还有图像应用的Transformer模型ViT和Clip等。建立在这些预训练模型技术之上，通过迁移训练可以提供服务的场景应用模型，比如OpenAI发布的这几天已经火到出圈的对话机器人的ChatGPT，当然除此之外，OpenAI还有其他很好的应用产品，像Whisper、图像生成模型DALL-E和辅助编程的CoPilot (Codex)。谷歌也有一些类似的应用模型，像前面提到AlphaGO阿尔法系列，以及LaMDA和Imagen等。另外还有Stable Diffusion和Midjourney这两个很火的图像生成模型等等。对于这些机器学习方法和模型，我们只要了解到这个思路，就很容易摸清楚AI模型相关的上下文的关系，可以针对我们的应用场景来选择怎样的模型，从而来实现智能化应用的落地。

机器学习和神经网络：万有近似原理和深度优势

机器学习是一个特征解析的过程，它主要将不同的数据里共同的特征逐步提取出来。机器学习模型表达这种数据和特征的关系，在数学上可以将这种关系表示为一个函数。机器学习模型目前很重要的一个基本架构是神经元网络（见上图），人工神经元网络是受到人脑神经元网络的启发。其有效性除了生物意义上的解释以外，更多地是在数学理论上和经验上的验证。首先是万有近似（Universal Approximation）原理。机器学习模型在一般的情形下可以表示为连续函数，万有近似原理指出任何连续函数都可使用一个简单的神经网来逼近。另外神经网络模型对于机器学习的有效性与其形状也有关系，所谓的深度优势，即一般情况下深网络比浅网络更有效。特别是如果用一个单层神经网络来实现一个多层神经网络的效果，需要具备指数多的计算单元。深度神经网络(DNN) 具有的深度优势体现在其更丰富表现能力。

万有近似定理给出函数逼近的存在性，但没有给出怎样可以找到这样的函数。在深度神经网络模型训练中，近似的效果是由事先定义性能函数，比如MSE损失函数Loss Function、交叉熵Cross Entropy, 或强化学习的价值函数Value Function，来衡量的。通过计算性能函数的梯度，基于最速下降原理，通过反向传播（Back-propagation)来逐步逼进最优解（下图）。

监督学习和卷积神经网(CNN)

卷积神经网（CNN）作为一种监督学习方法广泛使用于包括图像分类的计算机视觉应用中。卷积运算可获取数据系列在时间或空间局部变化特征，在图像处理中可以很有效地获取训练数据的空间特性。而CNN充分地利用了图像数据特殊结构，包括局部性（sparse interactions) 和位置平移不变（parameter sharing/equivariant representations)，以及通过对处理后的数据重新采样 (比如Pooling和Dropout等)，可以大大简化计算或改善模型训练的收敛。

CNN后来有很多改进，特别是引入残差连接的ResNet 可以有效的解决大规模CNN训练中遇到的一些问题，包括梯度消失/爆炸(Vanishing/exploding)使得训练难收敛，以及网络退化使得DNN到一定深度后深度优势难以体现。残差连接技巧也用于Transformer 和其它的机器学习方法，以加快收敛速度。

在不同应用场景当中，我们通常需要采用不同的学习方法。监督学习是通过实例来学习，训练数据由输入和对应的正确输出组成。让人工（比如专家）对训练数据进行标注，作为输出实例来告诉机器数据是代表什么来学习数据输入到输出的映射。在这基础上机器通过DNN逼近优化来寻找最优模型。例如，在图像分类中，训练数据可能由图像和图像中物体的标签组成。训练完成后，模型可以使用新的未标记数据（例如新图像）进行预测。下图是用于医疗诊断的基于 CNN 的监督学习系统。

监督学习的主要问题是需要人工高质量的标注数据，比如专家标注。这个在有些场合往往难以实现。包括Transformer的在内的非监督学习模型可以避免这个问题。

注意力机制和Transformer

注意力机制用来处理序列数据。它让模型自动选择关注数据哪些部分，而忽略其他部分，从而突出隐藏特征。它通常使用神经网络来计算权值来衡量每个部分的重要性。注意力机制用于变换器Transformer机器学习模型中。

Transformer 具有较高的并行性，同时处理多个输入，可以在大规模数据集上进行训练和推理。Transformer 包括编码器和解码器，它们的主要组成部分是多头注意力机制(multi-head attention mechanism)，它可以同时从序列中的不同位置获取信息，并将它们组合在一起来生成输出。Transformer 使用位置编码和残差连接技巧以提高训练效率。Transformer模型可以使用非标注数据来进行训练，作为一种非监督学习方法使用；它也可以作为生成学习模型的基本架构。Transformer模型在多种 NLP 任务上取得了先进性能，如语言翻译，语音识别和问答系统。Transformer 现在也广泛地应用于图像、多模态和基础大模型 (BERT 和 GPT) 等场景中。这种Transformer从NLP出发，攻城略地逐步统一AI越来越多领域的势头，起始于2020年底出现的Vision Transformer (ViT) ，之后蓬勃发展，到目前已大获成功，且其继续向更多领域拓展的势头会越来越迅猛。

生成学习：从GAN到扩散模型

生成学习属于非监督学习，比如早期的生成对抗网络(GAN)，通过GAN人们可以生成现实中根本不存在物体的图像，足以达到以假乱真的程度。另外最近的扩散模型的图像生成能力更是让人叹为观止。生成学习作为非监督学习的主要概念是其模型训练不需要事先对训练数据进行标注，先通过编码器等将数据的特性提取出来，形成一个隐藏变量（Latent Variable)，隐藏变量实际上是将图像或者数据的特征的一个综合，这个过程学习下来以后，通过逆过程则可以把任意随机变量映射到数据空间，从而生成相应的内容，比如图片。这几种不同的生成学习方法，虽然思路大体都是一样的，但是细节不同，模型的能力也不一样。特别是现在火热的扩散模型广泛地被用于像DALL-E 2，Midjourney,以及Stable Diffusion这样的图片生成应用中，人们只需简单的提示，可以用来生成各种创意的图像作品。

强化学习：反馈控制系统

强化学习和其它的机器学习方法不一样，其它的机器学习方法大多数都是基于开环的静态学习系统，而强化学习则是通过一个闭环的动态系统在线完成，它主要是根据系统的状态利用动态的反馈以产生相应的控制策略来对系统行为进行调整，让系统能够真正的了解学习其环境，并对环境进行适应。这种基于的反馈学习机制是更接近于人类的学习思维。近年来强化学习的一些方法和思路也被用来利用静态数据进行离线学习。离线强化学习是目前一个广泛研究和应用的方法，它旨在仅使用先前记录互动数据（如先前实验或人类演示数据）来集中学习系统行为，而无需进一步与环境互动。离线强化学习可以使得从大量和多样化的训练数据集中提取策略成为可能。

利用强化学习的应用场景很多，比如AlphaGo和ChatGPT等火爆应用都使用强化学习来实现相应的目标，特别是对齐人类定义的规则和价值，如下图的ChatGPT的基于人工反馈的强化学习（RLHF)，它使用先前收集的数据来对语言模型进行微调，是一种离线强化学习方法。

在企业应用场景，前面提到能源管理有很重要的一个目标是通过预测以后对能源的需求，让我们来决策对能源的储存，如存储多少太阳能、风力、水利等用来发电，一方面能够实现对碳排放的要求，另外一方面能够最大的减少成本，这个目标就能应用强化学习来实现（下图）。

迁移学习和大模型

迁移学习是利用预先训练好的模型，通过复用它的某些关键部分来形成新特定用途的模型。我们把这一关键部分叫做基础网。在下图的场景里面，原模型可以把数据分成4类，而在新的场景下只需要分成2类，我们使用迁移学习保留基础网并且可以固定其参数，只是取代最后输出的分类器。这样只需要对外层分类器的参数进行训练或微调就可以形成新的模型。

大多数子领域的迁移学习使用两阶段模式：模型预训练阶段+应用场景调整。迁移学习可分为3大类，第一种是基于微调的迁移学习，基础网的大多数参数固定，针对新的场景，把可调的参数进行微调。另外一种是基于特征的迁移学习，基础网用于生成数据的特征，比如生成Word embedding，利用变换的embedding数据来进行下面的训练。最后一种是这目前比较火的基于提示（Prompt）的迁移学习，基础模型结构和参数都不用改变，针对不同的场景，只需输入合适的提示（Prompt）来进行推理。这个是目前方兴未艾的大模型应用服务广泛采用的。

当然实际应用场景，迁移学习可以结合上面的几种方法。下图是OpenAI基于Transformer的基础模型GPT 通过迁移学习来实现不同场景的大模型应用。

大模型、伸缩律和涌现

AI解决的一个关键问题是如何充分利用人类的知识和经验数据（包括各种媒介纪录的知识，人为标记或未标记的数据、过去与环境的交互或从模拟器产生的数据）来建立一个高容量的AI模型来满足人们各种预测的需要。这就是所谓的建立基础模型（Foundation Model) 。这个模型本质上收集和记忆了大量人类相关知识和经验并能根据需要及时地给出合适的答案，所以基础模型往往规模很大。正因为这样，大模型和基础模型这两个词我们往往交换着用。

大模型应用往往基于相关的基础模型作为预训练模型迁移学习到相应的场景。基础模型现在大多数是基于Transformer或者Diffusion模型等生成模型，并将各种各样的机器学习机制和方法融合在一起。针对不同的场景，通过配置相应的适配层网络，形成其垂直场景的大模型，来提供相应的大模型服务。当然，有些超大模型可能适配层网络很简单，甚至不用，也可以实现满意的泛化能力。应用推理一般是通过基于提示来完成。目前可以通过零下（Zero-shot，用户不需要提供回答实例）、一下（One-shot,只需提供一个实例)和多下（Few-Shot，需要提供多个实例) 提示来获得满意的结果。因为它是通过这些提示，对它的答案空间进行相应的调整，来适应问题场景的需求。

基于深度神经网(DNN) 的大模型具有高维度和稀疏等特点。它们为什么有效？除了前面提到的深度优势外，还主要得益于大模型的伸缩律（Scaling Law）。伸缩律主要由大量的实验和经验观察发现。伸缩率主要是指大模型的性能和表现力，和随着数据集的大小，模型参数的多少以及计算资源的多少，呈幂律(Power Laws) 的关系。一般来说大模型的参数越多，数据集和计算资源规模越大，其能力会越强。当然实际情况可能比这复杂，规模往往不是性能的唯一决定因素。

大模型的规模优势不仅仅体现在模型性能上的简单提升。实验研究进一步发现大模型的规模达到一定的程度后，模型能力会从量变产生质变，性能会有跳跃性的增长（下图），也可能会涌现一些新的能力。这种大模型能力质的飞跃是所谓的涌现(Emergence) 现象。涌现现象的机理目前还没有完全了解清楚。

基于Transformer的大模型的两个技术架构：BERT vs GPT

大模型应用目前统一于Transformer 技术架构下。目前各种大模型收敛到了两个不同的预训练模型框架里：BERT 和 GPT。

对于自然语言理解类任务，其技术体系统一到了以BERT为代表的“双向语言模型预训练+应用Fine-tuning”模式 (下图).

而对于自然语言生成类任务，其技术体系则统一到了以GPT 2.0为代表的“自回归语言模型（即从左到右单向语言模型）+ Prompt”模式。下图是 GPT-1,GPT-2和GPT-3 的架构，区别主要在各自模型的规模。

BERT和GPT这两个预训练模型的出现，无论在研究还是应用角度来看，都代表了NLP领域的一个技术飞跃，并带来了整个领域研究范式的转换。这种范式转换带来的影响，体现在两个方面：首先，是部分NLP子领域的衰退乃至逐步消亡；其次，NLP不同子领域的技术方法和技术框架日趋统一。

大模型技术和应用的不断发展，目前主流大模型模型几乎都采用类似GPT这种“自回归语言模型 + Prompting”模式的，比如GPT-3、PaLM、MT-NLG和LaMDA等。这可能一方面是由于 GPT 架构可以灵活地实现理解和生成任务在表现形式上的统一。另外, 基于提示的推理更符合用户的使用习惯，而以提示这种模式解决下游任务，GPT模式效果要优于BERT模式。比如当今火爆的 ChatGPT 则是基于基础模型 GPT-3.5 的一个大语言模型 (LLM)。

ChatGPT：与人类价值观对齐的智能聊天机器人

ChatGPT是OpenAI推出的一个大语言模型 (LLM) 应用，它以对话方式和用户互动，并能够回答跟进问题。它试图符合人类价值观，包括勇于承认错误，挑战用户错误的前提，并拒绝不合适的请求。ChatGPT是早先InstructGPT的兄弟模型，被训练为遵循提示中的指令并提供详细回答。

ChatGPT 大模型主要在GPT-3.5基础模型基础上进行了一系列微调(Fine-Tunings) 并在2022年初训练完成。GPT-3.5是GPT-3 的升级版,有着多达 1750 亿个模型参数，利用2021年底为止的各种超过万亿单词的互联网语言数据 (超过90% 是英文，也包括计算机代码数据) 训练而成。在算力方面，GPT-3.5 在 Azure AI 超算基础设施（由 V100GPU 组成的高带宽集群）上进行训练，总算力消耗约 3640 PF-days（即如果每秒一千万亿次计算，则需要训练 3640 天）。

ChatGPT使用了人类反馈强化学习（RLHF）训练了这个模型，试图使最后的大模型与人类的价值观对齐(Alignment) 。首先使用人工标注数据通过监督学习训练初始模型，人工AI训练师扮演用户和AI助手两个角色对话，作为训练数据集的一部分。为了创建用于强化学习的奖励模型，需要收集对比数据，这包括多个模型回复的质量排名。为了收集这些数据，OpenAI采集了AI训练师与聊天机器人的对话记录，随机选择一条模型编写的消息，对回复进行几个抽样，并让AI训练师对它们进行排名。

可以看得到ChatGPT模型训练和微调融合了很多技术（见上图）。首先初始模型是GPT-3.5基础模型，并对这个模型进行一系列的微调。在上图左边行第一步它主要使用监督学习，即监督微调(SFT)，来训练初始模型；接下来使用了一种离线强化学习方法，即基于人工反馈强化学习(RLHF)，进一步训练了这个模型，首先在上图中间行第二步利用人对聊天机器人回复排名来训练获得奖赏(Reward) 模型(RM)，奖赏函数也是利用大规模神经网络进行学习的；最后上图右边的第三步应用强化学习的概念，使用第二步训练的奖赏模型(RM)，通过近端策略优化(PPO) 对模型进一步训练和优化。并重复进行几次这样的过程。

所以，整体来看ChatGPT是一个综合的模型，各种的方法和机制都融合在模型当中，让模型的性能可以超过人们的期待，并符合人类价值观。此外，ChatGPT作为大语言模型应用，基本实现了理想LLM的接口层，让LLM适配人的习惯命令表达方式，而不是反过来让人去适配LLM，从而增加了LLM的易用性和用户体验。OpenAI首先意识到这个问题，并给出了合适的解决方案。它是一种更符合人类习惯的人机（即LLM）交互接口。此外，ChatGPT后来不断地涌现出各种令人眼花缭乱的能力，连OpenAI的设计者自己都没有事先估计到。

人工智能应用的陷阱和规避

人工智能模型在人类生活和工作中会越来越成为常态。我们一方面享受到其红利的同时，也要尽量规避可能的风险，负责任的利用好人工智能技术。现在主要简单地提出几点企业人工智能工程应用当中可能遇到的陷阱，我们怎么通过AI工程来规避？主要强调几个关键的方面，第一个是它的成本，以及它对环境的影响；第2个模型的泛化和鲁棒性，我们将训练好的模型，用到生产环境；最后是隐私和安全。这些都是人工智能在企业应用中比较重要的问题。

首先我们来看看成本和环境的影响，这个对大模型尤为严重。因为大模型都是几千亿的参数量级，大模型的训练和运行计算量极大，进而成本也非常高昂。像GPT-3这样的模型训练一次成本是500万美金, ChatGPT 目前的运行成本每天超过10万美金。这样的成本对于很多企业和单位实际上是很难承担的。更要命的是，它对环境的影响也很大，对于一个两千万个参数的大语言模型训练，它的二氧化碳的碳排放量达到的标准是远远高于在美国一辆车使用年限内的碳排放量。大家知道美国是在方向盘上的国家，没有像中国高铁这种公共交通这么方便，大多数人基本上都是通过开车来旅行的，开车比较多，因而产生的碳排放相对比较多。所以大模型的训练和运行对环境的影响我们不能忽视。

要解决这个问题，我们必须在工程上解决计算复杂性问题，即减少用于训练和运行深度模型的计算量和计算时间。我们可以利用深度模型的特点，比如利用其稀疏性等特点,实现计算量缩减，目前使用的方法包括：

模型蒸馏(Distillation)
模型修剪(Pruning)
参数共享
模型量化(Quantization)

此外，计算也可以通过提高计算并行度来充分利用计算资源，进而减少计算时间，目前使用的方法包括数据并行和模型并行。其中模型并行包括流水线并行、张量并行和专家混合法（MoE）。下图是基于MoE的切换Transformer（MoE-Based Switch-Transformer）

另外，我们看看泛化性和鲁棒性问题。泛化性是指模型的应用范围扩展的问题，我们用训练数据集训练好模型，如果应用在生产环境当中，因为很多不同因素其数据可能与训练数据不一样，数据的特性可能漂移了，这样的模型还能不能在生产环境中重现当时训练的性能？在很多情况下我们可能遇到问题，比如下图利用图像识别模型来识别图片里的人，这个模型能够识别左边的人，但右边的人因为有一张公园的照片挂在他的胸口，这个模型就识别不了。这个模型的泛化性存在问题。

另外鲁棒性问题，如何保证模型在不确定环境当中，比如数据分布偏差、数据漂移、环境等其它不确定性，能够表现得好。

这类问题可能是深度模型固有的问题，对于泛化和鲁棒性，理想的情形在新的数据点预测可以通过训练数据点的内插(Interplation) 来实现，但LeCun 等人发现实际上对于高维的空间(比如大模型）的预测几乎都是通过外推(extroplation) 完成的。所以模型泛化和鲁棒性会是一个持续的问题。

对提高泛化性和鲁棒性，目前有一些AI 工程解决方案。比如提高训练数据的多样化：包括数据增强(Augmentation, 右)、数据综合(Synthesis)、主动学习(Active Learning) 等。另外，在模型训练上可以插入鲁棒性优化指标，可以使用适当的性能衡量标准（归纳偏好）进行学习，并通过强化学习或反馈优化控制使得鲁棒性增强。

人工智能的安全问题也是一个棘手的问题。人工智能系统安全风险包括人工智能工程系统本身存在各种隐私和安全风险（下图，Gartner）。

此外，深度神经网络DNN模型特别容易受到对抗性攻击；而且模型越大，其安全风险越高。一个简单的例子，用于图像生成的生成对抗网络(GAN)被发明不久，人们就发现了DNN模型存在各种各样的安全问题。

比如上图的左上方的熊猫图片，人眼识别是没问题，机器也能够判断。但是只需要加一个很小幅度的噪音，人眼识别图片仍然不受影响，但是机器则完全将它识别错误，它以99.3%的信心来判别这是长臂猿。这并不是特例，这样的例子普遍存在于人工智能的模型应用当中。人们很容易制造这种对抗性样本，使得AI的模型推理失效，这是我们在人工智能应用当中不得不面对的安全问题。目前从工程上，我们需要进一步加强模型训练以提高应对恶意攻击的能力，比如可通过抗性训练来提升模型的鲁棒性实现这样的能力。

当然人工智能工程面对的挑战远远不止这些，比如，让人工智能模型和人类价值对齐（Alignment）也会一直是人类利用人工智能技术的重大挑战。另外大模型对于企业应用意味着什么？企业怎样利用好大模型？我们将找机会进一步讨论这些问题。

面向未来的AI工程

今天主要介绍了人工智能技术的应用和发展，以及对工程的挑战，主要讨论了人工智能应用的基本的问题，以及面向工程应用时，我们对它的需求，我们能怎么来解释机器学习，因为我们只有了解机器学习的细节和关键点，我们才能够真正的用好人工智能。另外也简单的提到人工智能应用当中我们可能遇到哪些陷阱以及怎么去规避，但是人工智能工程更大挑战还在后面。下图是Gartner对于人工智能工程做的预测。前途光明，道路曲折，让MoPaaS通过其包括ModelOps在内的完整企业级人工智能工程解决方案和服务来为大家保驾护航！

最后，创建了一个AI应用落地生态交流群，欢迎大家入群交流！

关注视频号解锁内容

👇👇👇

关于MoPaaS魔泊云

源于硅谷、扎根中国，上海殷泊信息科技有限公司(MoPaaS)是中国领先的人工智能（AI）平台和服务提供商，为用户的数字转型、智能升级和融合创新直接赋能。针对中国AI应用和工程市场的需求，基于自主的智能 PaaS 云平台专利技术，MoPaaS 在业界率先创新推出拥有云计算(PaaS)+AI技术架构的开放的人工智能平台，以满足教学科研、工业制造、能源交通、互联网、医疗卫生、政府和金融等行业客户的AI技术研发、人才培养和应用落地工程需求。MoPaaS 致力打造全方位开放的AI技术和应用生态圈。MoPaaS 被Forrester评为中国企业级云平台市场的卓越表现者（Strong Performer)。