作者简介
王蕴韬
中国信息通信研究院云计算与大数据研究所副总工程师,国际电信联盟 ITU-T Q5/16报告人。主要研究方向为人工智能、区块链等新一代信息通信技术研究、标准化制定及产业发展政策制定等。
论文引用格式
王蕴韬. 通信系统优化对分布式机器学习系统性能提升的分析[J]. 信息通信技术与政策, 2021,47 (3):83-89.
通信系统优化对分布式机器学习系统性能提升的分析
王蕴韬
(中国信息通信研究院云计算与大数据研究所,北京 100191)
摘要:随着人工智能技术的迅猛发展,分布式机器学习系统的应用不断加速,对该系统性能提升的研究愈发紧迫。聚焦用于分布式机器学习的通信系统对整体系统性能提升的重大影响,从机器学习计算的独特性及分布式系统性能现有分析理论的局限性入手,对理论和工程实现两个维度深度分析了通信系统优化对于分布式机器学习系统实现线性乃至超线性加速的可行性,提出了影响分布式机器学习系统性能提升最为关键的三个通信系统优化核心要素,并对机器学习分布式系统中的通信优化理论及未来实践方向作出了展望。
关键词:人工智能;通信系统优化;分布式系统
中图分类号:TP181;TN929.5 文献标识码:A
引用格式:王蕴韬. 通信系统优化对分布式机器学习系统性能提升的分析[J]. 信息通信技术与政策, 2021,47 (3):83-89.
doi:10.12267/j.issn.2096-5931.2021.03.014
0 引言
以机器学习为代表的人工智能技术,在包括自然语言处理和机器视觉应用等方面已有超越人类的出色表现。AI赋能领域的迅速扩大势不可挡,但随之而来的是数据使用量和替代计算量剧增。根据OpenAI统计,2012—2019年,随着机器学习“大深多”模型的不断演进,所需计算量已经翻了30 万倍,模型所需算力呈现阶跃式发展。据斯坦福《AI INDEX 2019》报告统计,2012年之前,人工智能的计算速度紧追摩尔定律,每两年翻一番;2012年以后,则直接缩短为每三四个月翻一番。面对每20年才能翻一番的通用计算供给能力,算力显然已捉襟见肘。在此背景下,通过扩展单体计算能力已经无法满足实际工程需求,整合多个异构系统,采用分布式系统的计算策略完成机器学习的高效训练及推断已经成为业界的共同愿望。本文通过分析归纳机器学习计算特殊性及现有分布式计算性能分析理论的局限性,对比当前AI领域对分布式机器学习系统通信系统优化的理论与实践,提出了通信系统优化对于分布式机器学习系统性能的影响要素,并对下一步发展作出了展望。
1 从机器学习的独特性看通信系统优化的重要性
经过近两年的研究及应用实践沉淀,产业界发现面向机器学习的计算具有不同于一般计算的独特性,具体表现在三方面[1][25]:一是机器学习计算大部分场景仅需要低精度计算即可,一般推断应用场景下8 bit即可满足95%以上需求,无需FP32、FP16等高精度计算;二是机器学习计算只需用到很小的操作指令集,在过去40年中开发的众多基于CPU实现的通用程序并行运行机制,例如分支预测器、推测执行、超线程执行处理核、深度缓存内存层次结构等,对于机器学习计算来说都是不必要的,机器学习只需要高性能运行矩阵乘法、向量计算、卷积核等线性代数计算即可;三是分布式特性,随着模型不断增大,机器学习“大深多”模型已经无法在单片芯片完成计算,多芯片、多场景的异构计算需求使得机器学习计算必须考虑分布式的计算通信以及计算任务的协同调度,从而实现密集且高效的数据传输交互。由此可见,如何结合机器学习计算的特殊性,优化分布式系统中各计算节点的通信方式,对于实现机器学习分布式系统的整体性能提升具有重要的实际意义。
2 从两大定律的局限性看分布式机器学习系统性能提升的现实性
以分布式计算为核心特性的机器学习系统与传统分布式系统存在显著不同:尽管基础性操作指令集大大减少,计算精度要求相对降低,但面向多维向量的矩阵运算大大增加,直接导致了系统内节点通信需求的显著提升。然而,当前用于对计算系统性能进行分析的两大定律:阿姆达尔定律(Amdahls Law)[2]和古斯塔夫森定律(Gustafson s Law)[3],由于其所需满足的假设条件已经无法与分布式机器学习系统完全契合,因此存在缺陷。
一是两大定律仍然聚焦单个计算系统内部的分布式并行进行分析。由于提出时间相对较早,两大定律对于计算性能的研究仍主要将计算系统作为单个计算单元的内部整合进行分析,并没有统筹考虑复杂计算系统中共享内存、分布式存储以及I/O等关键通信技术,而这些技术问题都是提升分布式计算性能的重要瓶颈。以机器学习为代表的科学计算正从计算密集向数据密集演进,分布式系统不仅仅需要在最短时间完成单一任务的高性能计算任务,更需要在规定时间内尽可能完成多个并行计算,即高吞吐量计算任务。仅仅聚焦单个计算系统内部的并行计算分析定律已经无法满足实际工业生产需求。
二是两大定律适用的假设前提与机器学习分布式计算不同。阿姆达尔定律的假设前提是所需执行的计算任务规模固定,在此条件下增加计算单元的加速情况分析,而古斯塔夫森定律假设前提则是计算系统的算法、硬件、系统调度等均处于完全同步的理想状态,在此条件下进行分布式计算效率分析,而实际应用中,机器学习计算任务并非常量,系统内关键要素也无法实现完美协同。最为关键的是,两大定律对于加速比的定义均是假定算法在固定时间内能够收敛完成(fixed-time algorithm)而做出的,对于分布式机器学习而言,由于其计算任务并非常量,所需计算时间并非定值,加速比S(p)无法继续使用两大定律所提出的时间比来计算,应拓展为更广泛的速度比值来计算[4]。
本文刊于《信息通信技术与政策》2021年 第3期
主办:中国信息通信研究院
《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”,聚焦信息通信领域技术趋势、公共政策、国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、区块链、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。
《信息通信技术与政策》官网开通啦!
为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊于2020年11月18日起正式推出官方网站,现已进入网站试运行阶段。我们将以更专业的态度、更丰富的内容、更权威的报道,继续提供有前瞻性、指导性、实用性的优秀文稿,为建设网络强国和制造强国作出更大贡献!
http://ictp.caict.ac.cn/
推荐阅读
你“在看”我吗?

