

技术与标准丨通信系统优化对分布式机器学习系统性能提升的分析

信息通信技术与政策

2021-04-23

导读：王蕴韬

作者简介

王蕴韬

中国信息通信研究院云计算与大数据研究所副总工程师，国际电信联盟 ITU-T Q5/16报告人。主要研究方向为人工智能、区块链等新一代信息通信技术研究、标准化制定及产业发展政策制定等。

论文引用格式

王蕴韬. 通信系统优化对分布式机器学习系统性能提升的分析[J]. 信息通信技术与政策, 2021,47 (3):83-89.

通信系统优化对分布式机器学习系统性能提升的分析

王蕴韬

（中国信息通信研究院云计算与大数据研究所，北京 100191）

摘要：随着人工智能技术的迅猛发展，分布式机器学习系统的应用不断加速，对该系统性能提升的研究愈发紧迫。聚焦用于分布式机器学习的通信系统对整体系统性能提升的重大影响，从机器学习计算的独特性及分布式系统性能现有分析理论的局限性入手，对理论和工程实现两个维度深度分析了通信系统优化对于分布式机器学习系统实现线性乃至超线性加速的可行性，提出了影响分布式机器学习系统性能提升最为关键的三个通信系统优化核心要素，并对机器学习分布式系统中的通信优化理论及未来实践方向作出了展望。

关键词：人工智能；通信系统优化；分布式系统

中图分类号：TP181；TN929.5 文献标识码：A

引用格式：王蕴韬. 通信系统优化对分布式机器学习系统性能提升的分析[J]. 信息通信技术与政策, 2021,47 (3):83-89.

doi：10.12267/j.issn.2096-5931.2021.03.014

0 引言

以机器学习为代表的人工智能技术，在包括自然语言处理和机器视觉应用等方面已有超越人类的出色表现。AI赋能领域的迅速扩大势不可挡，但随之而来的是数据使用量和替代计算量剧增。根据OpenAI统计，2012—2019年，随着机器学习“大深多”模型的不断演进，所需计算量已经翻了30 万倍，模型所需算力呈现阶跃式发展。据斯坦福《AI INDEX 2019》报告统计，2012年之前，人工智能的计算速度紧追摩尔定律，每两年翻一番；2012年以后，则直接缩短为每三四个月翻一番。面对每20年才能翻一番的通用计算供给能力，算力显然已捉襟见肘。在此背景下，通过扩展单体计算能力已经无法满足实际工程需求，整合多个异构系统，采用分布式系统的计算策略完成机器学习的高效训练及推断已经成为业界的共同愿望。本文通过分析归纳机器学习计算特殊性及现有分布式计算性能分析理论的局限性，对比当前AI领域对分布式机器学习系统通信系统优化的理论与实践，提出了通信系统优化对于分布式机器学习系统性能的影响要素，并对下一步发展作出了展望。

1 从机器学习的独特性看通信系统优化的重要性

经过近两年的研究及应用实践沉淀，产业界发现面向机器学习的计算具有不同于一般计算的独特性，具体表现在三方面^[1][25]：一是机器学习计算大部分场景仅需要低精度计算即可，一般推断应用场景下8 bit即可满足95%以上需求，无需FP32、FP16等高精度计算；二是机器学习计算只需用到很小的操作指令集，在过去40年中开发的众多基于CPU实现的通用程序并行运行机制，例如分支预测器、推测执行、超线程执行处理核、深度缓存内存层次结构等，对于机器学习计算来说都是不必要的，机器学习只需要高性能运行矩阵乘法、向量计算、卷积核等线性代数计算即可；三是分布式特性，随着模型不断增大，机器学习“大深多”模型已经无法在单片芯片完成计算，多芯片、多场景的异构计算需求使得机器学习计算必须考虑分布式的计算通信以及计算任务的协同调度，从而实现密集且高效的数据传输交互。由此可见，如何结合机器学习计算的特殊性，优化分布式系统中各计算节点的通信方式，对于实现机器学习分布式系统的整体性能提升具有重要的实际意义。

2 从两大定律的局限性看分布式机器学习系统性能提升的现实性

以分布式计算为核心特性的机器学习系统与传统分布式系统存在显著不同：尽管基础性操作指令集大大减少，计算精度要求相对降低，但面向多维向量的矩阵运算大大增加，直接导致了系统内节点通信需求的显著提升。然而，当前用于对计算系统性能进行分析的两大定律：阿姆达尔定律（Amdahls Law）^[2]和古斯塔夫森定律（Gustafson s Law）^[3]，由于其所需满足的假设条件已经无法与分布式机器学习系统完全契合，因此存在缺陷。

一是两大定律仍然聚焦单个计算系统内部的分布式并行进行分析。由于提出时间相对较早，两大定律对于计算性能的研究仍主要将计算系统作为单个计算单元的内部整合进行分析，并没有统筹考虑复杂计算系统中共享内存、分布式存储以及I/O等关键通信技术，而这些技术问题都是提升分布式计算性能的重要瓶颈。以机器学习为代表的科学计算正从计算密集向数据密集演进，分布式系统不仅仅需要在最短时间完成单一任务的高性能计算任务，更需要在规定时间内尽可能完成多个并行计算，即高吞吐量计算任务。仅仅聚焦单个计算系统内部的并行计算分析定律已经无法满足实际工业生产需求。

二是两大定律适用的假设前提与机器学习分布式计算不同。阿姆达尔定律的假设前提是所需执行的计算任务规模固定，在此条件下增加计算单元的加速情况分析，而古斯塔夫森定律假设前提则是计算系统的算法、硬件、系统调度等均处于完全同步的理想状态，在此条件下进行分布式计算效率分析，而实际应用中，机器学习计算任务并非常量，系统内关键要素也无法实现完美协同。最为关键的是，两大定律对于加速比的定义均是假定算法在固定时间内能够收敛完成（fixed-time algorithm）而做出的，对于分布式机器学习而言，由于其计算任务并非常量，所需计算时间并非定值，加速比S（p）无法继续使用两大定律所提出的时间比来计算，应拓展为更广泛的速度比值来计算^[4]。

基于此定义，根据阿姆达尔定律，固定计算任务下分布式系统通过计算单元并行所能达到的极限加速比为：

根据古斯塔夫森定律，在给定的时间内，线性加速比极限由计算单元数量决定，其所能达到的理论极限加速比为：

这两个理论极限值均假设其线性计算部分（Serial Work/Time）不受计算单元个数的限制，而实际上，由于每个计算单元启动和结束计算时间不一致，以及通信及同步开支带来会随着计算单元的增加而逐渐增大，该假设条件在多数场景下已经不再适用^[4]。在现实工程实践中，由于分布式计算系统所使用的通信系统不同，产业界目前已经在一定范围内取得了超线性加速（Superlinear Speedup）的实践，突破了当前两大加速定律划定的理论极限。

3 从通信优化理论看分布式系统的加速

从理论上来看，如果通过合适的通信系统优化手段，保证合理的系统通信开支，则无论是对于持续性算法（Persistent Algorithm）还是非持续性算法（Nonpersistent Algorithm）^[5]，其分布式系统的拓展甚至能够突破线性加速边际，实现超线性加速^[6]。定义CC、MC分别表示计算时钟周期和内存访问周期，P表示分布式计算单元数量，e表示分布式计算及同步带来的通信开支，若存在一个正数满足：MC_S > P ×MC_P+e×CC_P ，同时保证0 ≤ e ≤ p以及CC_S=CC_P× (P- e)，则该并行系统能够实现超线性加速。该理论表明，在共享存储的环境下，优化通信手段，从而实现合适的通信开支e，是提升分布式系统整体性能的重要手段。

该理论要求对于数据中单个元素的调用频次c必须大于1。而以矩阵乘法为核心的分布式机器学习计算恰恰能够满足这一要求。存储密集型计算场景下c= O（N），即矩阵中每一元素都将被访问N次以执行不同的操作。无论是在多GPU的物理环境^[7]、云计算环境^[8]还是基于不同计算单元的异构计算环境^[9]，对于存储密集型的分布式机器学习计算c≫1的前提下，均可在一定范围内实现超线性加速（见图1）。

图1 计算单元并行数量在一定范围内能够实现的超线性加速举例^[6]

分布式机器学习利用多个工作节点同时训练，相互加速合作来加速学习过程。假设某个任务中计算与通信的时间占比为1∶1，则无论使用多少台机器，其加速比都将不超过两倍。有效降低通信与计算时间占比是分布式机器学习系统实现高线性加速比的核心要素，而通信优化手段的缺失直接影响了分布式计算的并行性能。以Intel与AMD多核CPU对比为例，尽管AMD Opteron与Intel i7处理器缓存数量及各核心计算性能相当，但相关试验显示，由于Intel L3缓存与主内存间通信存在较大频率差，其线性加速效率要远低于AMD Opteron实现^[10]。基于云计算环境对于虚拟计算资源的横向及纵向扩展能够实现超线性加速比，但在配置计算资源与存储资源时，需保证每个虚拟机中线程与计算核心通信带宽的合理优化^[24]。

4 通信系统优化对于分布式机器学习系统的影响分析

当前，分布式机器学习系统主要有3种并行计算方式：在计算并行、数据并行与模型并行^[11]。在计算并行模式下，所有工作节点共享同一公共存储，所有节点对于全部数据有完全且相同的访问权限。本文阐述的单系统多计算核心物理环境即属于这个范畴。在数据分布式模式下，训练数据由于体量过大无法在单节点存储，只能被切割后划分至各个工作节点，各节点能够访问的数据不同。常用技术包括随机采样法、置乱切分法以及数据维度划分等方法。在模型并行模式下，训练模型由于过大无法在单节点存储计算，因此一般同时使用数据维度划分与模型线性分割的方式进行切割分布，常用模型线性分割方法包括横向按层划分、纵向跨层划分以及模型随机划分等。由于数据并行与模型并行方式极大减小了单节点内存计算力要求，尽管并非最优实践，但也成为目前分布式机器学习系统设计及实现的主流方式。而不同节点间通信系统的设计及优化则成为制约并行性能的核心因素。经梳理分析，通信系统对于分布式机器学习系统的影响，可以从通信内容、逻辑拓扑以及协议设计3个维度进行区分和阐述。

4.1 通信的内容

由于节点间通信总是发生在系统各节点每次迭代计算之后，因此不论通信内容是训练数据还是模型中间计算结果，都应尽量减少通信频次，以达到缩减通信开支的目的。各个节点每次迭代计算后所交换的数据主要为梯度（Gradients）及模型参数（Parameter），由于模型体量固定，因此通信流量相对稳定平滑，对于通信流量波动影响较大的是训练数据的传输。而实践证明在单次通信中传输大批量（Batch Size）训练数据能够减少通信开支。尽管在训练数据切分通信时能够造成瞬时的高网络负载，但单次传输大批量训练数据能够有效提升模型准确率，降低通信频次，减少通信开支，从而提升分布式机器学习系统的性能。从表1可以看出，尽管随着计算节点，尤其是训练数据批量的增加，系统通信量呈指数级增长，但在保证模型准确率的前提下逼近了分布式计算的线性加速。继续以ResNet-50为例，假设训练所需迭代次数为100次，批量大小为1024，使用两个工作节点训练需要25 万次迭代；若将批量大小设置为8192，在16个工作节点完成训练，则只需要1.5625 万次迭代^[12]，大批量训练数据传输能够有效降低通信开支。

表1 不同批量大小及硬件平台下ResNet-50训练结果对比

梯度及模型参数的通信频次对于分布式系统性能的影响，同时也与所使用的梯度下降算法息息相关，可以看到不同梯度下降算法下，通过合理调整通信轮次，尤其是合理缩减通信轮次，能够实现分布式系统的线性加速。假设在K个计算节点环境下，模型参数及梯度的通信发生在每个节点进行τ次迭代计算之后，若τ = 1，则该算法为朴素梯度下降（Vanilla Parallel SGD），当τ = T，即所有节点在结束全部本地计算时间T后仅进行一次通信，则该算法为单次梯度下降（One-shot SGD），当1<τ<T时，常用算法为PR-SGD、本地梯度下降（Local SGD）等。当前业界已进行试验性工作，结果表明：合理地根据不同算法调整τ的取值，能够有效减少通信开支，提升分布式机器学习系统性能表现（见表2）。

表2 能够实现线性加速的算法及通信轮次

在减少通信频次的基础上，为传递更多信息，对梯度及模型参数进行压缩也成为目前产业界使用的主要方法。以具有3.4 亿参数的BERT模型为例，若使用32 bit来表征梯度及模型参数，则单个节点间每次迭代数据量至少为1.2 GB，大量传递32 bit的单精度数据给通信系统带来巨大压力。然而，正是由于机器学习并非需要高精度数值计算的特性，使通过减少非必要梯度及参数精度，提升带宽通信效率成为可能。除本文第一部分论述的推断场景外，产业界针对训练场景主要使用3种方法进行压缩：量化、稀疏化和分解。量化方法将非重要变量的精度降低，稀疏化方法只传递对于模型至关重要的参数，而分解方法则将大型矩阵进行拆分传输。这3种方法都能够有效降低通信所需带宽、降低网络压力，从而保证计算与通信占比的最优值。

4.2 通信的拓扑

通信的拓扑指的是分布式机器学习系统中各工作节点间的连接方式，分为物理拓扑和逻辑拓扑两个维度，本文主要聚焦于逻辑拓扑对于分布式机器学习系统的影响分析。对于模型复杂度不高的工业级实现，基于大数据的分布式计算框架就能够满足计算需求，如消息通信接口（MPI）或MapReduce计算框架等。但对于数据量大,模型复杂度高的计算场景，MPI仅支持同步计算等局限性凸显，业界选择采用基于参数服务器的二分图拓扑结构，以支持使用异步通信的分布式训练。随着机器学习的不断普及，计算和通信只有通过紧密耦合才能够实现最优配置，因此计算节点与通信节点统一抽象为数据图模型的发展方向逐渐明晰，该拓扑能够确保任意相连图节点间的通信能力。

基于分布式大数据技术的迭代式MapReduce/AllReduce通信拓扑包括星型、树形及蝶形等基础拓扑结构。Map操作定义了数据分发及在本地节点上的计算，而Reduce则定义了模型聚合方法所用的加和与平均。其工程实现已被封装至包括SparkMLib、SystemML以及REEF等软件框架。该通信拓扑最大问题在于随着计算单元的线性增加，其通信开支也成线性增长，因此该拓扑结构下目前也使用了广播的形式将计算结果及数据发送至所有计算单元。表3总结了3种拓扑结构传输量及传输次数的对比^[11]。

表3 3种 AllReduce拓扑结构通信情况对比

值得注意的是，以上3种典型拓扑仅支持同步通信，各个工作节点使用统一逻辑，同步时各个工作节点提供的信息必须针对同一组参数，局限性很大。为更好适应异步计算算法，基于参数服务器的二分图拓扑架构应运而生。该架构主要分为工作节点和服务器节点两类，工作节点负责处理本地的计算训练任务，并通过客户端接口与参数服务器通信，获取最新模型参数或上传更新相关参数。该拓扑下工作节点和服务器节点间通信，而工作节点间无须通信。可以看出，该拓扑下参数服务器侧的通信带宽是系统性能的瓶颈，当工作节点数量较多时，服务器端通信带宽压力巨大。因此，目前业界也提出了基于二分图的树状拓扑（见图2），其端侧为工作节点，工作节点的上级根为服务器，通过分层方式缓解服务器端的带宽压力。

图2 基于二分图的参数服务器树状拓扑

基于数据流的通信拓扑中，计算被描述为有向无环数据流图，图中的每个节点进行数据处理或计算，当两个节点位于两台不同的机器上时，它们之间便会进行通信。以TensorFlow为代表的分布式计算框架就是基于数据流图进行的工程实现，其原理见图3。

图3 数据流模式下分布式节点的组成部分^[11]

4.3 通信的协议

传统TCP/IP通信机制由于采用套接字（Socket）方式发送和接收信息，每个节点在发送数据前必须先创建套接字对象，增加了操作系统将数据按多种协议封装的工作，而这对于分布式机器学习系统所需的低时延要求来说太过浪费。因此，减少不必要通信开支，直接使用网络硬件实现高效低延时的通信协议成为关注重点。目前，产业界主要存在两套协议：一是远程直接内存访问（Remote Direct Memory Access，RDMA）协议，二是基于InfiniBand的互联网协议（IPoIB）。RDMA允许一台机器直接对另一台机器的内存进行读写操作，不需要操作系统层面的干预，IPoIB则将IP数据报文直接封装至InfiniBand网卡，能够在不添加任何字段改动的前提下运行基于TCP/IP的应用。基于100块GPU实现的Inception-V3训练实践表明，RDMA机制能够比IPoIB 实现更为显著的性能提升，IPoIB能够实现53%的性能提升，而RDMA则能够达到96%，近乎线性的加速提升^[23]。

在实际工程实践中，上述从三个维度总结阐述的各项通信优化手段不能相互独立、直接拆分，通信系统的优化是一个融合了上述三大维度各个细项指标的系统工程。因此，为更好实现计算与通信开支比例的最优化调整，现从工程实践维度提出对于分布式机器学习系统有效节约通信开支的三项原则性举措：一是应尽量降低分布式计算各个节点间的通信同步频率，同时提高单次通信训练数据传输的批量大小；二是应根据实际应用需求，以压缩精度或数据分拆的方式，减少高维模型单次梯度及模型参数的通信量；三是选择合适的梯度下降算法及通信机制，结合模型及数据特点，使用合理的通信拓扑及算法组合。

5 用于分布式机器学习的通信系统优化展望

由于机器学习相较通用计算具有精度低、指令少、IO高的独特优势，未来工业级机器学习系统将依托面向通用性计算的分布式系统继续向融合系统乃至专用系统演进。在通信系统优化上有如下3个层面的认识。

（1）算法层面。当前基于卷积神经网络（CNN）的分布式算法应用较多，而对于递归神经网络（RNN）的分布式算法则几乎没有，对于τ>1的非凸优化（Nonconvex Optimization）分布式算法是否能够实现线性加速的研究也尚处空白。

（2）通信拓扑层面。随着未来人工智能应用场景不断泛化，端侧与云侧的交互、端侧与端侧的交互等复杂通信场景将层出不穷，当前研究假设的星形、树形以及蝶形逻辑拓扑无法满足新型交互场景的分析需要。

（3）通信协议层面。尽管有损的RDMA协议在数据中心侧已经实现了对于TCP/IP的替代，但随着云端通信、端端通信等应用场景的增加，有损传输协议不考虑重传丢包，仅实现最小通信开支的理念是否依然能够取得线性加速仍有待进一步的试验和检验。

尽管分布式计算发展历史已久，但应用于分布式机器学习计算的通信系统优化技术还处于新兴阶段，除上述考虑外，针对通信机制提出衡量分布式机器学习计算性能分析模型，以及相关评测工具的开发等工作将愈发重要，对于各类分布式机器学习系统网络瓶颈及通信性能的分析也将成为未来的重要研究方向。

6 结束语

当前分布式机器学习系统发展迅速，基于大规模计算集群的软硬件优化不断推陈出新，集群间通信系统性能在不断优化。然而，通信系统优化仅是分布式机器学习系统优化的一个重要环节，全面提升分布式机器学习系统效能还需要底层大数据高速调度、云原生环境下AI专属算力虚拟化及管理编排等更多技术合集的共同发展。随着AI赋能进程的不断深入，分布式机器学习系统发展必将得到更多聚焦，同时也将对数据中心等新基建发展产生深刻影响。

参考文献

[1] Dean J. The deep learning revolution and its implications for computer architecture and chip design[J]. arXiv:1911.05289, 2019.

[2] Amdahl G M. Validity of the single processor approach to achieving large-scale computing capabilities[C]//AFIPS Conference, 1967.

[3] Gustafson J L. Reevaluating amdahl s law[J]. Communications of the ACM, 1988,31(5):532-533.

[4] Ristov S, Prodan R, Gusev M, et al. Superlinear speedup in HPC systems: why and when?[C]//Computer Science & Information Systems. IEEE, 2016.

[5] Shi Y. Reevaluating amdahl's law and gustafson's law[R]. US: Computer Sciences Department, Temple University, 1996.

[6] Gusev M, Ristov S. A superlinear speedup region for matrix multiplication[J]. Concurrency and Computation:Practice and Experience, 2014,26(11).

[7] Djinevski L, Ristov S, Gusev M. Superlinear speedup for matrix multiplication in GPU devices[J]. Advances in Intelligent Systems and Computing, 2013(207):285-294.

[8] Gusev M, Ristov S. Superlinear speedup in windows azure Cloud[C]//1st Int. Conference on Cloud Networking, 2012.

[9] Cedric A, Thibault S, Namyst R, et al. StarPU: a unified platform for task scheduling on heterogeneous multicore architectures[J]. Concurrency and Computation: Practice and Experience, 2011,23(2).

[10] Anchev N, Gusev M, Ristov S. Intel vs AMD:matrix multiplication performance[J]. Information Communication Technology Electronics Microelectronics, 2013:182-187.

[11] 刘铁岩, 陈薇, 王太峰, 等. 分布式机器学习:算法、理论与实践[M]. 北京:机械工业出版社, 2018.

[12] You Y, Zhang Z, Hsieh C J, et al. Fast deep neural network training on distributed systems and cloud TPUs[J]. IEEE Transactions on Parallel and Distributed Systems, 2019(99):1-1.

[13] Goyal P, Dollár, Piotr, Girshick R, et al. Accurate, large minibatch SGD: training image net in 1 hour[J]. arXiv:1706.02677, 2017.

[14] Akiba T, Suzuki S, Fukuda K. Extremely large minibatch sgd: training resnet-50 on imagenet in 15 minutes[J], 2017.

[15] Jia X, Song S, He W, et al. Highly scalable deep learning training system with mixed-precision: training imagenet in four minutes[J]. arXiv:1807. 11205, 2018:1-9.

[16] Hiroaki M, Hisahiro S, et al. Imagenet/resnet-50 training in 224 seconds[J]. arXiv:1811. 05233v1, 2018.

[17] Masafumi Y, Akihiko K, Akihiro T. Yet another accelerated sgd: resnet-50 training on imagenet in 74. 7seconds[J]. arXiv:1903. 12650v1, 2019.

[18] Dekel O, Gilad-Bachrach R, Shamir O, et al. Optimal distributed online prediction using mini-batches[J]. Journal of Machine Learning Research, 2010(13): 165-202.

[19] Yu H, Yang S, Zhu S. Parallel restarted SGD with faster convergence and less communication: demystifying why model averaging works for deep learning[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019(33):5693-5700.

[20] Stich S U. Local SGD converges fast and communicates little[J]. International Conference on Learning Representations, 2018.

[21] Haddadpour F, Kamani M, Mahdavi M , et al. Local SGD with periodic averaging: tighter analysis and adaptive synchronization[J]. arXiv:1910.13598, 2019:1-24.

[22] Shen S, Xu L, Liu J, et al. Faster distributed deep net training: computation and communication decoupled stochastic gradient descent[C]//Twenty-Eighth International Joint Conference on Artificial Intelligence IJCAI-19, 2019.

[23] Liu C, Wei J, Wang Y, et al. Optimizing deep learning frameworks incrementally to get linear speedup: a comparison between IPoIB and RDMA verbs[C]//2018 IEEE 24th International Conference on Parallel and Distributed Systems. IEEE, 2018.

[24] Ouyang S, Dong D, Xu Y, et al. Communication optimization strategies for distributed deep learning: a survey[J]. Journal of Parallel and Distributed Computing, 2021(149):52-65.

[25] 王蕴韬. “新基建”助推人工智能基础设施全面升级[J]. 通信世界, 2020(7):20-21.

Analysis of communication system optimizationson performance of distributed machine learning systems

WANG Yuntao

(Cloud Computing & Big Data Research Institute, China Academy of Information and Communications Technology, Beijing 100191, China)

Abstract: As Artificial Intelligence develops rapidly, utilization of distributed machine learning systems continues to accelerate, and the research on this area is urgent. This paper focuses on the analysis of key factors that communication systems impact the performance of distributed machine learning systems, starting from the analysis of unique features of machine learning computation and limitations of existing theories. Then, it focuses on the feasibility study of linear and super-linear acceleration of distributed machine learning systems, proposes three key factors consisting numbers of communication system optimization technics, and puts forward future prospects of communication optimization theories as well as engineering technics.

Keywords: Artificial Intelligence; communication system optimization; distributed system

本文刊于《信息通信技术与政策》2021年第3期

主办：中国信息通信研究院

《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“信息通信技术前沿的风向标，信息社会政策探究的思想库”，聚焦信息通信领域技术趋势、公共政策、国家/产业/企业战略，发布前沿研究成果、焦点问题分析、热点政策解读等，推动5G、工业互联网、数字经济、人工智能、区块链、大数据、云计算等技术产业的创新与发展，引导国家技术战略选择与产业政策制定，搭建产、学、研、用的高端学术交流平台。