全面优化｜我们如何将基于OpenStack的基础云平台打造得坚如磐石？- 大数跨境

云极星创

2016-12-29

导读：不管公有云还是私有云，稳定可靠都是客户的第一需求。使用OpenStack 来构建基础云平台，到底如何才能做到稳定可靠呢？

经过几年的发展，OpenStack已经成为事实上的私有云标准，在公有云上也有一些案例。不管公有云还是私有云，稳定可靠都是客户的第一需求，而OpenStack因为自身的一些原因，其稳定性不高也是大家的一个共识，那么，使用OpenStack 来构建基础云平台，到底如何才能做到稳定可靠呢？

云极星创也是基于OpenStack构建基础云平台，我们对稳定可靠的要求也一直是摆在第一位上。“我们要求我们的云基础平台坚如磐石”，云极星创联合创始人兼CTO刘世民说，“我们通过全方位的优化来实现这个目标。首先，我们在对OpenStack深入理解和实践基础上选择性地使用它；其次，我们应用社区推荐的标准架构，并在其基础之上进行持续优化；最后，我们通过完整的测试和‘细到尘埃’的监控来保证其可靠性”。

首先，从解决方案层面，云极星创和行业内的一些优秀企业建立了合作伙伴关系，双方通过完整的整合性测试来保障解决方案的可靠性；在OpenStack 组件层面，我们只选择核心的和必需的组件，在对它们进行全方位优化的基础上，再整合满足企业需要的第三方组件来提供完整可靠的解决方案。

其次，我们使用社区的推荐架构，并加以优化，这是我们的第一道防线。拿高可用（HA）来举例子，我们完全应用了社区推荐的最优高可用架构，但是，我们不止于此，我们还在持续地对它进行优化。比如说，社区的MySQL 集群使用三个节点，使用HAProxy 来将某个节点配置为主节点，其他两个为备节点。正常情况下这个集群会运行得很好。但是，我们在生产环境上发现，当主节点宕机后，要么无法自动切换到备节点，要么可以切换，但是切换时间太长。针对这个问题，我们使用Pacemaker 加上自定义监控和管理脚本来优化。“有一次，我们的监控系统发现集群的主节点宕机了，运维立刻去查看日志准备处理，几乎与此同时，数据库已经自动切换到备节点，这过程中完全没有任何人工干预，业务完全没有受到任何影响。另外，在社区的架构里，原来的主节点宕机后不能自动恢复，这方面我们也做了优化。”云极星创负责运维管理平台研发的主管廖鹏辉如是说。

再次，我们使用全方面的测试作为云基础平台的第二道防线。“我们的测试，不仅包括常规的功能测试、性能测试、HA测试，以及Windows和Linux 云主机的基础功能测试，我们还搭建常见的应用集群，比如在几个Windows 虚机上搭建Exchange Server 和SQL Server 集群，通过长时间地测试该集群的性能和稳定性，来测试Windows 云主机的性能和稳定性。”云极星创负责测试的经理李芊如是说。

最后，我们通过运维和监控作为保证云平台可靠性的最后一道防线。我们知道，任何的架构，即使设计得再好，也会有漏洞；任何的测试，无聊做得如何全面，都会有死角。因此，我们通过“细如尘埃”的监控系统，来监控可能出现的系统异常。“举例来说，OpenStackNeutron L3 Agent 的高可用方案一直是个老大难问题，现在用得比较普遍的是VRRP （虚拟路由冗余协议）方案。它在两个网络节点上，使用Keepalived 来控制一个虚拟路由器（VR）的一主一备两个实例，由主实例向虚机提供网关。我们发现，偶尔Keepalived 会出现脑裂，也就是两个实例都是主（Master），然后在其中一个主（Master）切换为备的时候，计算节点上的虚机的跨子网通信会中断。发现这个问题后，我们首先通过优化Neutron代码来做最大可能的改进；同时，通过监控来发现根本原因，然后运维和研发团队再做进一步的优化。” 云极星创负责运维的主管宁安如是说。

我们就是这样，持续优化，致力于打造坚如磐石的云基础平台。

云极星创工程师团队将持续分享来自研发运维一线的实战经验，长按下方二维码关注我们，了解更多技术细节。

【声明】内容源于网络

云极星创

与追求极致的人们一道探索未知，成就卓越！

内容 21

粉丝 0

云极星创与追求极致的人们一道探索未知，成就卓越！

总阅读2

粉丝0

内容21