编者按:
虚拟化作为云计算的基础,是以牺牲性能损耗的形式来换取的。这使得部分企业在尝试了上云之后,又回归传统IT的怀抱。
如何解决虚拟化性能瓶颈,实现真正的云原生?今天就来为大家介绍阿里云的神兽——“神龙”。
虚拟化带来的是云计算上的一次革命,它最大的价值是给计算带来了弹性,但同时又带来了性能损耗的负担——如果不解决虚拟化损耗,云计算产业将很快碰到技术的天花板。
作为第三代虚拟化技术,神龙架构加持下的第七代阿里云服务器计算性能提升了160%,存储IOPS高达100万,网络转发PPS2400万,存储延时下降了70%,容器部署密度提升了6倍。
这意味着为EDA设计、在线游戏、基因分析、远程教育等高性能计算场景提供业界领先的性价比和稳定性。
随着云计算往纵深方向发展,软硬一体和云原生将成为云计算技术架构的主流。未来3-5年内,容器在IT架构里面的占比将达到一半以上,云原生需要我们将虚拟化推向极致,实现更极致的启动速度、并发能力、部署密度等。这也是神龙的设计思路和发展方向。
阿里云的“神龙”究竟神在哪里?本文带你来看。
神龙2020年成绩单
入选世界互联网领先科技成果
包揽斯坦福DAWNBench竞赛四项第一
论文入选计算机系统领域顶级会议ASPLOS'20
计算的载体从楼船一般的大型机到快艇似的小型机,到如今万吨巨轮的云计算,背后有同一个技术的身影,那就是“虚拟化”。
有了虚拟化技术,无数台计算机可以“组合”成一台超级计算机。
而一台计算机也可被“切割”成无数小计算机。
但是,随意“组合”和“切割”的舒爽不是白来的,代价就是“虚拟化损耗”。那么,什么是虚拟化损耗呢?举个例子,假设你是教练,需要训练104个运动员。
这么多人,你是管不过来的,所以一些人就会在训练时偷懒。
你只能从中选出8个小组长,让每个小组长管12个运动员,这样一来,队伍的秩序就加强了。
但这8个本来要上场的人去做了管理,原来104分的绝对战斗力,现在只剩下96分。在这个例子里,虚拟化的性能损耗大概是8%。
而且足球运动员踢球在行,但做管理就不一定擅长了。
为了解决云计算之一“硬伤”,阿里云专门成立了一个“神龙”部门,请来管理专家自研专用板卡,专人专岗负责虚拟化调度。
这样,运动员就负责专心踢球,可以把原本管理的CPU解放出来。
不仅如此,阿里云还设计了一套更加高效的信息管理机制神龙Hypervisor,让管理专家拥有单独的战略部署区域,避免与运动员互相打扰。
另外还有一套现代化智能化通讯系统、模拟训练系统,目的是提高运动员的训练效率。
总的来说,“神龙”部门承担了所有管理和协调工作,还升级了内外的通讯和运输系统。
从2017年开始,这套“神龙”软硬一体化计算平台就在阿里云服务器上服役了。
今天的神龙已经多次进化,不仅覆盖常规的云服务器,还大规模应用在异构计算、超算集群上,扩容效率更高了,容器跑得更快了。
2019年双11期间,阿里将核心业务迁移到神龙架构上,通用类的业务承载提升了20%-30%。
2020年双11,神龙继续大放异彩,支撑了58.3万笔/秒的订单峰值,“剁手”体验丝般顺滑。
今天的神龙承载了中国超80%的科技企业上云,广泛应用于医疗、新政务、智能制造、互联网、教育等多个行业。
跨越了“性能损耗”这座大山,神龙将在云计算普惠的道路上越走越远。
原创:阿里云
编辑:阿里云研究中心 张楠
往期回顾




