
在圆满结束的 2021全球人工智能产品应用博览会
“AI基础平台与开源社区论坛”上
梯度科技云管高级技术专家吴政带来精彩演讲
给现场和直播间的观众留下了深刻的印象
没来得及看的小伙伴也无需遗憾
小编根据现场演讲
亲自整理出文字稿
下滑查看哦~
演讲人:梯度科技云管高级技术专家 吴政
演讲主题:《天问剑多云管理平台:面向异构AI集群的云际多云管理平台》
全文共计 5336字,预计阅读 14 分钟

大家下午好!我是来自梯度科技的吴政。今天由我来给大家介绍面向异构AI集群的云际多云管理平台——天问剑多云管理平台。首先感谢智博会、启智社区,还有鹏城实验室给予我们这次分享的机会。
另外也希望通过我们的分享,让更多的开源爱好者,以及业内人士,能够关注并加入到启智社区的开源生态建设队伍中来。
接下来我们的介绍,主要会为四个部分,一个是我们的平台介绍,主要是从背景、目标、能力等多个方面,全方位介绍我们的多云管理平台。另外是应用案例,主要介绍我们平台在一些具体项目中的落地情况。第三点是开源发展规划,主要向大家介绍,我们平台在当前阶段计划要开源出来的内容,以及后续我们在启智社区的开源发展规划。第四是简单介绍一下我们公司的情况,以及我们相关的客户和合作伙伴。

首先给大家介绍一下我们的平台。

我们为什么要做多云管理的平台,其实是源于现在混合多云时代的一些用户功能诉求。
一是多云异构的纳管,刚才依瞳科技的领导也有讲到,其实现在很多的场景像AI计算会需要同时用到公有云、私有云,甚至还有NPU与GPU,我们对各种异构以及跨云环境资源就存在管理上的问题。
二是在多云的环境下面,我们怎么样提供一个更完善的IT资源全生命周期的管理。
三是我们怎么样通过把各个业务部门的资源做共享或者做更好的调度来提高整体资源的使用率。
四是我们怎么样对成本与费用进行分析,来达到费用管理透明化、完成成本优化的目的。
第五是我们想提供一个更中立的平台,对云服务商的服务能力等各方面进行一个相对公正的考核。
最后是在一个多云的环境下,我们希望通过一些自动化作业来提升在多云环境下整体的运维效率。
基于这些诉求我们开始做这个平台,我们平台的主要目标是什么呢?

首先我们是为各级提供一个管理和决策的平台,能够加强对多云的统一管控能力,在这个基础上提供一个便利的多云统一管理入口,构建对各个云服务商统一的考核管理体系。
原来我们在没有多云管理平台之前,云资源的使用用户需要进入到每一个云平台控制台去做相应的云资源申请、管理与使用等操作,有了多云管理平台之后,用户只需要访问到多云管理平台,在多云管理平台就可以完成对所有的云平台资源的申请、分配、管理以及使用等操作,实现在混合多云场景下,为不同品牌的异构云平台资源,做到统一的申请、分配、运维、监管以及考核,最终实现云运营和运维全流程的统一。
这是我们多云管理平台一个总的架构图。

从这个图上可以看到,作为一个多云管理平台,它有一个比较核心的地方就是怎么做到多种云平台的适配管理。它需要负责对整个数据中心,或者多个数据中心里的虚拟化/容器云,还有公有云等基础设施统一的适配管理,这其中会需要与阿里云、华为云等多家云厂商进行适配。
在云平台的统一适配之上,我们提供一个统一的云资源目录,包括专有网络、云服务器或者云存储等各种云资源。在这些云资源之上,构建多租户下的运营、运维相关的功能体系,再基于这些功能体系,组合构建成为我们适配各个场景的管理门户。
在这些功能以外,我们还能够支持在用户的环境中接入各种IT系统,包括负责流程审批的OA系统、负责IT服务管理的ITSM系统、负责资产管理的CMDB系统、以及负责用户信息统一管理的LDAP系统等等。
前面讲到我们多云管理平台的核心是怎么样去完成对云的统一管理适配,那么接下来给大家介绍,我们在云管理和云适配这部分的核心组件。

核心组件这一块主要分为三个部分,第一个部分是云适配器,第二个部分是云适配器网关,第三个部分是云管理器。
云适配器负责完成各种云平台的适配对接工作,包括像阿里云、华为云等各种云平台。
云管理器提供一个统一的标准抽象,来完成云平台、云资源的纳管流程,还有统一的认证授权机制、资源的组织体系,以及资源表示的抽象。
在两者中间的云适配器网关,负责管理协同各个云适配器,通过云适配器目录、云适配器服务发现、适配范围申明以及云接口路由等一系列的能力和机制,做到云平台接入过程的高效研发、云适配器的热插拔,以及实现云适配器的动态横向扩展。
关于云平台接入过程的高效研发,我们现在能够做到最快在两周以内完成一个全新的云平台纳管接入。在运行时我们能够做到云适配器的热插拔来动态适配各种云平台以及各种云资源。通过对云适配器的横向扩展,我们平台的纳管能力可以从纳管10个云扩展到纳管100个云,从纳管5千个资源实例扩展到纳管超过5万个资源实例。
接下来这个图是云管理器、云适配器网关,以及云适配器基本工作原理的示意图,在这里也做个简单介绍,我们是怎么做到热插拔、横向扩展以及最终实现高效研发的。

从图中可以看到,平台中会有多个云适配器集群,每个云适配器集群分别对应适配不同的云平台,每个云适配器集群中会有多个云适配器服务实例,每个云适配器服务实例会将自己注册到微服务的注册中心,同时会通过消息队列不间断的发送心跳包,心跳包中会包含服务实例的微服务坐标信息,云适配器网关通过监听心跳消息,来动态维护云适配器目录。当有一个新的云适配器集群加进来时,云适配器网关能够及时的感知到,如果有一个云适配器集群离线了,云适配器网关也会通过心跳机制来管理云适配器的状态并从云适配器目录中移除对应的记录,这就是云适配器热插拔的实现原理。
另外在云适配器网关这部分,会通过微服务中心去获取云适配器集群对应的服务实例列表,通过负载均衡等机制来完成向云适配器集群的接口调用,这就通过微服务架构的机制让云适配器集群支持服务的横向扩展。
在云适配器网关以及云适配器集群之上,由云管理器提供统一的规范标准,包括纳管流程标准、认证授权标准、组织体系标准以及资源的抽象表示。这样云适配器只需要对接各个云平台的接口,把云平台的数据与接口抽象转化为云管理器所需的标准抽象,就能够实现对应云平台的纳管适配。因为云适配器完成标准抽象的输出后,由云管理器统一实现上层的各种业务功能,云管理器的实现可以兼容大部分的云平台与云资源,因此可以做到非常高效的完成云平台的接入工作。
这是我们平台主要包含的四个核心功能模块,第一是包含公有云、私有云以及容器云等各类云平台的统一纳管,第二是基于多租户体系的定价计费、营销分析等功能的统一运营,第三是实现对云资源监控、告警、自动化运维的统一运维,第四是作为中立平台提供对云服务商考评体系的统一考核。

多云管理平台的核心能力方面,我们主要把它划分为六个部分。

首先是最基础的是多云对接能力,能够快速的完成各种云平台的接入。
第二是能够提供一个对云平台、云资源全生命周期的管理能力,而且能够做到标准化,对不同的云平台都能够提供一个统一的管理界面,能够极大的降低异构、多云场景下的运维管理成本。
第三是通过数据可视化等方式实现对资源进行全方位的统计与分析,实现对资源的多维度运营。
第四是平台采用微服务架构,可以做到重要功能模块的热插拔,能够根据用户的个性化需求灵活定制新的功能。
第五是集成与被集成的能力,我们可以接入客户已有的OA流程审批、统一用户中心等IT系统,同时我们、对外提供标准化的RESTful接口,能够非常方便的让别的系统来集成我们。
第六是安全可靠能力,平台代码完全自主研发,且能够兼容主流的国产化数据库与中心件、国产芯片与操作系统。
接下来给大家介绍我们现在项目实际落地的案例情况,这里主要介绍的是鹏城的云际多云管理平台案例。

鹏城云际多云管理平台主要服务于鹏城云脑,鹏城云脑作为一个国家级的开源开放AI研究云平台,拥有全国多个数据中心组成的AI算力网,鹏城云脑是在这个算力网上构建的云态智能算力平台,鹏城实验室基于鹏城云脑实现AI大模型的研发。

鹏城云际多云管理平台是在鹏城云脑的基础上,基于云际计算技术构建的多云互联平台。需要统一管控鹏城云脑一号以及鹏城云脑二号,要屏蔽各个云平台、大型AI计算集群之间硬件的异构性,以及云化技术的差异性,最终为AI训练任务按需提供算力支撑。

鹏城云际多云管理平台最终实现了鹏城云脑各个AI计算集群的互联与管理,同时提供一个统一的入口把鹏城云脑多个AI计算集群统一管理起来。在这个基础之上,会有各种AI平台(包括云际分布学习平台、区块链平台等等)来使用跨云的资源。

接下来给大家介绍一下,天问剑多云管理平台的开源发展规划。

首先给大家讲一讲项目的基本情况。我们在启智社区的开源项目的名称是梯度天问剑多云管理系统,其中天问剑这个名称源自国产动画《秦时明月》,是秦始皇的佩剑,这个名字寄托了我们对项目的厚望,也体现了我们的自信。目前这个项目仅在启智社区进行开源管理,使用的开源许可证是国产的木兰宽松许可证。
项目定位是一个面向异构AI集群的云际多云管理平台。最终的目标是希望通过我们不断地深耕人工智能领域,最终成为人工智能领域最优秀的多云管理PaaS平台,为大规模的AI计算场景提供PaaS层的整体解决方案。
现阶段项目开源的范围主要包括实现章鱼云、华为云(公有云+私有云)以及OpenStack等云平台的统一纳管,同时在纳管云平台的基础上,提供一系列的运营与运维功能体系。
在现阶段开源范围的基础上,我们后续的发展规划主要分为三个方向。

第一是多云纳管能力方向,目前开源的范围是章鱼云、华为云、OpenStack,之后我们还有一些已经研发完成或者正在研发过程中的,也会逐步向开源项目中转化,主要包括阿里云、UCloud、天翼云、以及Kubernetes,后续我们还会持续完善补充,会包括腾讯云、百度云、VMware、浪潮云等云平台。
第二个方向是实现资源的跨云调度。现在我们已经实现了对多个云的资源统一管理,但最终为AI计算赋能,跨云调度是我们认为特别重要的一个能力。

目前的情况下,在云服务使用方用户创建云资源时,需要明确告知多云管理平台需要选择某个云平台申请某个具体规格的云资源,实现跨云调度后,用户只需要告知多云管理平台想要一个满足一个什么条件什么规模的云资源,多云管理平台会根据所纳管的云平台的情况,为用户自动选择合适的云平台创建满足需求的云资源。比如某些AI计算场景下,用户需要地理位置上与当前用户临近的云计算节点,多云管理平台可以自动识别用户当前的地理位置,从当前纳管的云平台中选取地理位置相对更近的云平台资源池,然后根据用户需求创建资源。
第三个方向是实现真正的云间互联。这个在业界是比较常见的问题,真正贴近AI计算场景的解决方案也很少。我们想做到的是,不同的云平台之间,通过我们的多云管理平台,能够实现各种计算资源的互联打通。甚至包括跨云的各种异构资源,也要实现互联互通。

目前这个方向我们还只是起步阶段,也希望会后大家有这方面的想法的话能够跟我们一起探讨,我们可以一起在启智社区去实现和完善这方面的能力。

最后给大家简单介绍一下我们公司。我们是广西梯度科技有限公司,是数字广西旗下的一家从事云计算的公司,拥有一批从事云计算和人工智能的技术的专家。
我们公司作为国内可信的PaaS解决方案提供商,始终坚持以客户为中心,以创新为驱动,以技术为引领,以结果为导向。我们现在已经自主研发完成的有三大平台,分别是梯度智能云平台,梯度云管平台,梯度大数据平台。
我们通过这些平台,以及我们的服务团队,来为客户提供云相关的一系列服务。目前公司的产品解决方案,已经广泛应用于政府、军工、科研以及金融等多个领域。
我们公司目前的概况给大家简单介绍一下。我们公司目前有132个人,其中研发人员占大半数,大约有70多人,交付人员有30多人,下属设置的分支机构有3个。我们的核心团队,主要是来自阿里巴巴、国防科大、小米、华为等顶尖的技术团队。
我们的公司现在的主要业务领域,是聚焦信创生态,同时深耕军工、科研以及政务等领域。公司目前获得的荣誉资质这部分,像高新技术企业这种认证超过20多项,软著有30多项,发明专利有7项,获得的可信云认证有3项。

这是我们公司目前主要的一些客户以及合作伙伴。我们的客户主要会涉及政府、军工、科研等领域,像中国航天、航天工业、鹏城实验室、国防科技大学、翼支付等。我们的合作伙伴目前也主要是涉及云计算方面的阿里云、天翼云、浪潮云等,还有国产芯片领域的厂商像龙芯、兆芯、飞腾等,这些与我们都是有非常多的合作,并且也与这些合作伙伴相互完成了很多云计算领域的认证。
由于时间关系,今天我就介绍这么多,如果有朋友后续对我们的天问剑多云管理平台发展规划有好的想法或者有这方向的技术交流需求,欢迎随时联系到我,后面我们可以做一些更深入的探讨,今天我的介绍就到这里,感谢大家!

