大数跨境

全面优化|我们如何将基于OpenStack的基础云平台打造得坚如磐石?

全面优化|我们如何将基于OpenStack的基础云平台打造得坚如磐石? 云极星创
2016-12-29
1
导读:不管公有云还是私有云,稳定可靠都是客户的第一需求。使用OpenStack 来构建基础云平台,到底如何才能做到稳定可靠呢?


经过几年的发展,OpenStack已经成为事实上的私有云标准,在公有云上也有一些案例。不管公有云还是私有云,稳定可靠都是客户的第一需求,而OpenStack因为自身的一些原因,其稳定性不高也是大家的一个共识,那么,使用OpenStack 来构建基础云平台,到底如何才能做到稳定可靠呢?

云极星创也是基于OpenStack构建基础云平台,我们对稳定可靠的要求也一直是摆在第一位上。“我们要求我们的云基础平台坚如磐石”,云极星创联合创始人兼CTO刘世民说,“我们通过全方位的优化来实现这个目标。首先,我们在对OpenStack深入理解和实践基础上选择性地使用它;其次,我们应用社区推荐的标准架构,并在其基础之上进行持续优化;最后,我们通过完整的测试和‘细到尘埃’的监控来保证其可靠性”。

首先,从解决方案层面,云极星创和行业内的一些优秀企业建立了合作伙伴关系,双方通过完整的整合性测试来保障解决方案的可靠性;在OpenStack 组件层面,我们只选择核心的和必需的组件,在对它们进行全方位优化的基础上,再整合满足企业需要的第三方组件来提供完整可靠的解决方案。

其次,我们使用社区的推荐架构,并加以优化,这是我们的第一道防线。拿高可用(HA)来举例子,我们完全应用了社区推荐的最优高可用架构,但是,我们不止于此,我们还在持续地对它进行优化。比如说,社区的MySQL 集群使用三个节点,使用HAProxy 来将某个节点配置为主节点,其他两个为备节点。正常情况下这个集群会运行得很好。但是,我们在生产环境上发现,当主节点宕机后,要么无法自动切换到备节点,要么可以切换,但是切换时间太长。针对这个问题,我们使用Pacemaker 加上自定义监控和管理脚本来优化。有一次,我们的监控系统发现集群的主节点宕机了,运维立刻去查看日志准备处理,几乎与此同时,数据库已经自动切换到备节点,这过程中完全没有任何人工干预,业务完全没有受到任何影响。另外,在社区的架构里,原来的主节点宕机后不能自动恢复,这方面我们也做了优化。”云极星创负责运维管理平台研发的主管廖鹏辉如是说。

再次,我们使用全方面的测试作为云基础平台的第二道防线。“我们的测试,不仅包括常规的功能测试、性能测试、HA测试,以及Windows和Linux 云主机的基础功能测试,我们还搭建常见的应用集群,比如在几个Windows 虚机上搭建Exchange Server 和SQL Server 集群,通过长时间地测试该集群的性能和稳定性,来测试Windows 云主机的性能和稳定性。”云极星创负责测试的经理李芊如是说。 

最后,我们通过运维和监控作为保证云平台可靠性的最后一道防线。我们知道,任何的架构,即使设计得再好,也会有漏洞;任何的测试,无聊做得如何全面,都会有死角。因此,我们通过“细如尘埃”的监控系统,来监控可能出现的系统异常。“举例来说,OpenStackNeutron L3 Agent 的高可用方案一直是个老大难问题,现在用得比较普遍的是VRRP (虚拟路由冗余协议)方案。它在两个网络节点上,使用Keepalived 来控制一个虚拟路由器(VR)的一主一备两个实例,由主实例向虚机提供网关。我们发现,偶尔Keepalived 会出现脑裂,也就是两个实例都是主(Master),然后在其中一个主(Master)切换为备的时候,计算节点上的虚机的跨子网通信会中断。发现这个问题后,我们首先通过优化Neutron代码来做最大可能的改进;同时,通过监控来发现根本原因,然后运维和研发团队再做进一步的优化。”  云极星创负责运维的主管宁安如是说。

我们就是这样,持续优化,致力于打造坚如磐石的云基础平台。


云极星创工程师团队将持续分享来自研发运维一线的实战经验,长按下方二维码关注我们,了解更多技术细节。


【声明】内容源于网络
0
0
云极星创
与追求极致的人们一道探索未知,成就卓越!
内容 21
粉丝 0
云极星创 与追求极致的人们一道探索未知,成就卓越!
总阅读2
粉丝0
内容21