大数跨境
0
0

IPU芯片会是人工智能领域里GPU的终结者吗?

IPU芯片会是人工智能领域里GPU的终结者吗? 数创时代DSG
2023-09-22
1
导读:关于人工智能的遐想。


人工智能研究已经有六十多年的时间。从最简单的文字对话,到电脑程序战胜人类国际象棋大师。人工智能在竖立了一个里程碑之后似乎就进入了平台期,再无标志性的成绩出现。然而最近几年,计算机的智能水平突然得到了明显提升:识别图片和语音正确率超过人类,自动驾驶汽车开始上路,参加智力问答竞赛获得冠军,甚至曾经被认为无法战胜人类的围棋领域,人工智能现在已成绩斐然。

到今天,这些成绩的背后,都离不开AI算法和运算能力的突飞猛进。AI算法和芯片的算力,始终互相成就。一方面,GPU的不断升级,带动了AI计算突破算力瓶颈,实现了大规模应用;反过来AI大规模应用,产生的庞大数据、更复杂的需求,也带动了芯片的创新。

2022年6月,全球最权威的AI计算竞赛之一,也被称为“机器学习的奥林匹克”的ML Perf,MLCommons发布了MLPerf Training v2.0的结果,此次共收录了来自21个不同提交者的250多项性能测试结果,包括Azure、百度、戴尔、富士通、技嘉、谷歌、Graphcore、HPE、浪潮、英特尔-HabanaLabs、联想、Nettrix、NVIDIA、三星和Supermicro。此外,ASUSTeK、CASIA、H3C、HazyResearch、Krai和MosaicML等是首次参加训练测试评估。

这次Graphcore用他的IPU(Intelligence Processing Unit),这种专为AI训练研发的芯片,在训练AI的图像识别模型上,只花了不到20分钟的时间,比英伟达的王牌GPU产品快了将近10分钟。可以说,是在GPU的强项上,赢了人家一次。

Cambrian-AI Research LLC创始人兼首席分析师Karl Freund,在福布斯上发表了一篇题为“NVIDIA丢掉了AI性能王冠,至少目前如此”的文章,评论了此次MLPerf的结果。

Freund表示,这是MLPerf自公布以来,NVIDIA第一次没有横扫全部排行榜。

此次的模型提交,Graphcore提供了ResNet-50和BERT两个标准模型测试结果,此外,在语音方面在开放分区提交了RNN-T(Recurrent Neural Network Transducer),这是始于其客户的项目。

在GPU占据优势的模型ResNet-50上,Bow Pod16仅耗时19.6分钟,表现优于NVIDIA的旗舰产品DGX-A100 640GB所需的28.7分钟,性能提升大概30%,而在Bow Pod256上,结果显示ResNet-50的训练时间仅需2.67分钟。8台DGX-A100和Bow Pod256相比,性能对比约为6比10,而Bow Pod的价格又远远低于DGX-A100的8倍,这足以证明Graphcore产品相比NVIDIA的高性价比。

之前英国半导体之父、Arm的联合创始人Hermann爵士也说,在计算机历史上发生过三次革命,第一次是70年代的CPU,第二次是90年代的GPU,而Graphcore的IPU就是第三次革命。现在MLPerf的结果,似乎更坐实了这些判断。

之前就有报道说Graphcore是英伟达的最强挑战者,说它会凭借IPU弯道超车,打破英伟达在AI训练的统治地位,取而代之。

那么,这个专为AI训练而生的IPU,凭什么能让一家家成立于2016年的英国创新企业,有底气去叫板“行业大佬”英伟达呢?

想搞清楚这个问题,咱们先来看看芯片在人工智能上能被用来做什么?

芯片第一个笔用来做的事情叫“AI训练”。AI训练有点像我们在学校读书、我们不断的看书、学习新知识、提高自己的能力,期待着出师,去工作的那一天。AI训练则是数据、算力不停的优化算法,训练好的AI模型也就像出师的我们一样。不过他比我强的是,不会被老师“夸奖”:一学就会、一听就懂、一做就错。

在我们读完以后,就会按照所学习的专业分配到对应的岗位,学习编程的去做了程序员,学习通讯的去做了通讯工程师,学习开车的去做了司机。同样,被训练好的AI模型也奔赴各自的岗位中,自动驾驶专业的AI模型就被固化到车载芯片上,人脸识别的模型就被装到智能摄像头里。这个AI模型学以致用的环节就是”AI推理“。

两个环节,各有难度。特别是AI训练,非常考验芯片大规模并行计算和分层处理数据的能力。为什么是这两个能力呢?因为AI是模拟人的大脑来干活的。大脑在处理信息的时候,神经网络是高度并行的(embarrassingly parallel)。就是不同神经层的神经元同时工作,你干你的,我干我的,然后汇总这一层的成果到上一层,层层累积,获得最终认知。

GPU有三个特点,非常适合深度学习:

  • 提供了多核并行计算的基础结构,且核心数非常多,可以支撑大量数据的并行计算。并行计算或称平行计算是相对于串行计算来说的。它是一种一次可执行多个指令的算法,目的是提高计算速度,及通过扩大问题求解规模,解决大型而复杂的计算问题。

  • 拥有更高的访存速度。

  • 更高的浮点运算能力。浮点运算能力是关系到处理器的多媒体、3D图形处理的一个重要指标。现在的计算机技术中,由于大量多媒体技术的应用,浮点数的计算大大增加了,比如3D图形的渲染等工作,因此浮点运算的能力是考察处理器计算能力的重要指标。

所以GPU才会成为这股AI浪潮中的弄潮儿,因为它的大规模并行计算能力正好满足AI计算、特别是AI训练的需求。英伟达也正是乘着这阵东风,在2016到2021短短5年间,股价增长了20倍,成为全球市值最高的芯片设计企业。

但是,GPU毕竟不是专门为AI设计的,所以它一直有两个应用瓶颈无法突破:

第一,GPU是片外储存。它的计算单元每次工作前,都得先出去访问储存器,读取和存储中间计算结果。

第二,GPU的并行计算只在单一层面,要分层计算得靠软件辅助实现。每多一层计算,开发者就得重新设计一层架构叠加上去,十分耗费工序。而且模型越复杂,GPU越力不从心,久而久之,它成为了很多开发者创新的障碍。

但IPU不一样,它是Graphcore专门根据AI计算特点设计的芯片

  • 针对GPU的痛点,Graphcore为IPU设计了一种全新的芯片架构,在上面大规模部署了“片上存储器”。IPU 采用的是大规模并行同构众核架构。其最基本的硬件处理单元是 IPU-Core,它是一个 SMT 多线程处理器,可以同时跑 6 个线程,更接近多线程 CPU,而非 GPU 的 SIMD/SIMT 架构。IPU-Tiles 由 IPU-Core 和本地的存储器(256KB SRAM)组成,共有 1216 个。因此,一颗 IPU 芯片大约有 300MB 的片上存储器,且无外部 DRAM 接口。

  • IPU架构模拟人类大脑,支持分层计算。它把大脑的这套神经系统固化到硬件上,开发人员直接套用模版,输入参数就能工作,这就比原来用软件层层设计叠加,方便快捷得多。

为了比较GPU与IPU的性能,微软还做了个实验,用AI来读取X光胸片并诊断肺部病症。结果是,GPU要5个小时才能训练出的识别模型,Graphcore的IPU只用半个小时就搞定了。

Graphcore的负责人说,2022年,它们有希望从以往市场霸主的挑战者,变成多个维度的领导者,话里话外直指英伟达和它的GPU。

但是,Graphcore真的能打败英伟达?我觉得短期的可能性很低。

我们知道,虽然在AI训练上,IPU有GPU无可比拟的效率,但AI推理市场还是GPU的天下。特别在是云平台上,大家要用AI处理各种格式的数据,有语音的一维数据、图像的二维数据,还有自动驾驶的三维数据,目前只有GPU的通用性可以满足。

即便在训练市场,眼下IPU想彻底取代GPU也很难。毕竟之前大家部署的芯片,基本都是GPU,现在整个换成IPU,迁移成本就是大问题。而且在GPU上的成熟训练模型,迁移到IPU上,是不是会有问题?这样的风险也很难承受。

未来很长一段时间里,GPU依然是主力。就像GPU无法取代CPU一样,IPU也无法取代GPU,三者共同协作,组成芯片系统,才是大趋势所趋。

Graphcore要做的事情是培养市场。因为IPU是和AI市场共同发展的,所以Graphcore除了抓住已有的AI市场,比如和微软等云服务商合作,用云计算平台广泛触达智能通讯、智能监控、智能交通等领域的客户之外,更要努力推动其他产业积极引进AI,培养出新市场。

就目前Graphcore的动作来看,它正在这方面下功夫。在中国市场,它先是和阿里巴巴合作,利用它们的接口帮企业快速完成GPU到IPU的迁移。之后它又和百度飞桨、金山云一起,建设基于IPU的深度学习平台和开发者云,供研究机构和个人免费使用,让创新者能轻松获取IPU训练AI,开发新模型。

如果IPU能利用它结构上的优势,导致人工智能的性能大大提升,寻找到了产业新增的巨大市场。那么那一天Graphcore的野心就可能不仅仅是英伟达,而IPU的对手可能也并不再是GPU,让我们拭目以待吧。


关注我们,了解更多
文章来源:知乎@fat3

往期精彩回顾

圆满落幕 ‖ 银行信息技术应用创新与数字化转型研讨会

从平台思维到危机转机:星展银行与KPN数字化转型的巅峰之路

突破客户期望 || 两个成功案例揭示数字化转型路径2的秘密


点分享

点收藏

点在看

点点赞

【声明】内容源于网络
0
0
数创时代DSG
数创时代DSG为CXO和其他数字化领导者,提供关于数字化转型、业务复杂性、组织变革和数字化工作方式等主题的见解。和企业管理人员共同迎接全球化、数字化、不确定性等组织所面临的挑战。
内容 303
粉丝 0
数创时代DSG 数创时代DSG为CXO和其他数字化领导者,提供关于数字化转型、业务复杂性、组织变革和数字化工作方式等主题的见解。和企业管理人员共同迎接全球化、数字化、不确定性等组织所面临的挑战。
总阅读511
粉丝0
内容303