
随着人们对人工智能(AI)发展及应用的期待升高,芯片公司也都全力开发定制型芯片以及优化这些芯片的计算节点。市场情报公司ABI Research将AI硬件分为云端服务、设备本身(on-device)以及混合平台三大领域,其中云端是将AI任务交给超大规模数据中心进行线上处理,但基于运输及延迟等因素,有些数据必须直接在设备上执行计算。至于混合型则是结合云端与设备平台完成AI计算,例如使用手机设备先辨识出用户,然后交由云端接着计算。

根据The Register报导,类神经网络共有2个层面,一是训练,利用网络分析大量数据产生统计模型,这属于学习阶段;其次则是推导,透过类神经网络转译新数据,并精确的产生结果。训练类神经网络需要非常庞大的计算量,由于训练负载可以切割成许多同时执行的工作任务,因此GPU的双精度浮点计算及庞大的计算核心占有很大优势。
部分云端业者亦投入开发不同于GPU架构的自有芯片,例如Google的张量处理器(Tensor Processing Unit;TPU),除可支援推导工作负载,新一代更加入了可用于训练的浮点精确度计算。TPU属于特殊应用集成电路(Application-Specific Integrated Circuit;ASIC),专为特定目的而设计,无法重新编程,效能高功耗低,但价格昂贵。Google因规模够大,相关的一次性工程费用可以通过省下的功耗成本加以补贴。
至于微软(Microsoft)则是在数据中心部署现场可编程逻辑器件(FPGA),负责网络及机器翻译等AI工作负载。英特尔也将在2017年推出代号Knight Mill的新一代Xeon Phi高效能CPU,着重机器学习与人工智能应用。除了以Xeon搭配FPGA芯片Altera Arria 10之外,英特尔也将以Xeon搭配源自Nervana Systems技术的Lake Crest芯片,采用比DDR4快12倍的HBM2随机存取记忆体,加快数据传输效能。
除了依据GPU、FPGA、ASIC建立的系统外,其他公司也试图从基本面改写AI架构,例如NASA前署长Dan Goldin的Knuedge新创公司正在开发针对云端计算的256核芯片,英国Graphcore的IPU (Intelligence Processing Unit)是不同于GPU向量或CPU标量处理的图形处理库,可以缓解数据从记忆体传送到处理单元的问题。
手机、无人机及汽车等客户端装置的考量重点为节能与低延迟计算,尤其自驾车需要在瞬间做出决定,对于传输延迟的容忍度更低。包括ARM、高通(Qualcomm)及苹果(Apple)在内都将推出优化机器学习任务的处理器。
而麻省理工学院(MIT)的Eyeriss计划则正在开发内建168个核心、专门用来部署神经网络的芯片。该校电机工程教授Vivienne Sze表示深度神经网络最耗能量的部分不在于推导计算,而是数据在记忆体及乘积累加计算之间交换时,因此Eyeriss芯片可在将数据传送到每一个核心之前,先进行数据压缩。

戳下面的原文阅读,更有料!

