运维,本质上是对设备、系统和服务的全生命周期各个阶段的运营与维护,它与业界的整个技术趋势发展相辅相成,随着传统IT向信息化、数字化的不断转变,运维也经历了手动运维、自动化运维、平台化运维、智能化运维4个主要发展阶段。
同时,运维也是在成本、稳定性、效率等方面达成一致或可接受的状态。运维能力的建设需要结合项目实际场景要求,即需要综合考虑建设成本、系统的稳定性要求和流程体系运转的效率等多个因素,对目标应用系统、运行环境、业务功能的稳定运行展开合理规划, 保障运维SLA目标的达成。
厦门鲲鹏超算中心是全国首个鲲鹏架构的云化超算中心,在政府引导下,由神州数码作为企业主体进行投资、建设和运营,为政府、企业、高校和科研机构提供海量计算、海量存储、大数据和人工智能服务。
凭借高性能、高可靠的数字底座,丰富的功能和卓越的服务,自2020年发展至今,超算中心已成为厦门市规模最大的政务云平台,为政务、天文气象、社会治理、智慧医疗、工业制造等10数个领域的30余个单位,提供了42项云服务,并连续两年保持SLA 100%达成,“0”故障、“0”投诉的运维成果。
SLA是服务供应商与客户之间的服务等级协议,它定义了服务供应商应保证的服务质量。超算中心主要客户是政府机构,因此对超算云服务的可用性提出了更高的要求,为保障SLA达成,超算团队从高可靠云平台架构设计和运维体系构建两方面展开运维能力建设。
为满足对数据的完整性、一致性等数据质量的要求,超算中心提供良好的数据安全可靠性策略,采用多种安全可靠的技术手段,保证系统及数据的安全与可靠:
包括内存、硬盘、电源等多个层面的内容,提供BIOS内存自检和ECC纠错技术,支持硬盘热插拔和RAID功能,提供硬盘在线故障检测和预警,支持电源冗余和热插拔,其中最关键的是由多台服务器组成高可用计算资源池,支持虚拟机的热迁移、HA功能。
每个计算节点与存储集群之间,至少配置两个完全冗余的路径,从而提供存储的多路径访问功能,采用分布式块存储作为存储设备,数据采用纠删码或三副本技术,保证数据不丢失和故障快速恢复。
核心层交换设备使用交换机集群技术,接入交换机使用交换机堆叠技术,虚拟网络层通过采用多网卡绑定技术,实现网络路径全冗余。
系统通信平面划分为业务平面、存储平面和管理平面。为了保证各种网络平面数据的可靠性,不同平面间采用VLAN等技术进行隔离,单个平面故障不影响其余两个平面的正常工作。
对于各通信平面(业务、存储、管理)均采用双网卡,双网卡采用了Bonding模式,两网卡被绑定成逻辑上的“一块网卡”后,同步一起工作。
通过采用计算集群和存储集群相分离的架构,管理软件均采用1+1备份或负载均衡的方式运行。计算集群完成虚拟机的按需分配以及集群内的热迁移,存储集群完成虚拟机的系统卷和用户卷的按需分配以及跨磁盘的存放。
提供虚拟机的自动迁移和手动迁移方案,在当前计算节点出现故障或者计算节点负载过高时,可以把虚拟机迁移到正常的计算节点或者负载相对较低的计算节点上,保证虚拟机的正常运行。系统提供虚拟机、卷快照功能,系统正常状态下,可以触发一个系统快照,用于在系统出现故障的时候还原系统。
在运行维护实践过程中总结形成的运维能力模型的五个核心要素是:方法、体系、流程、组织、系统。这是体现运行管理能力的关键点。

神州数码运维能力经历了近二十年的积淀,从运维标准的跟随者,一步步成长为标准的制定者。关键就是一直遵从行业的最佳标准和实践指导,将规范的理论运用到实际工作管理过程中,并将操作过程中遇到的问题和解决方案分析整理,总结提炼后参与到标准的补充修订和建设完善工作中,最终成长为标准的制定者,走在了行业的前沿。
通过流程要素、工具要素和组织要素的不断建设,从运营和运维两个方向形成功能完备的运营运维体系。

在流程设计、落地、优化方面,以ITIL理论为主体框架,参照ISO20000、ISO27001、ITSS等国际和国内方法要求,规范运维过程各环节,从服务战略开始规划,全面考虑服务设计、服务转化、服务运营、服务持续改进等不同阶段的流程,并结合精益六西格玛的方法,对服务流程进行控制和优化,以确保我们的服务流程落地和目标达成。在这个思想指导下,超算中心建立了一套相对完整的能够用于专有云日常运行管理的服务管理流程,保障运维操作的标准化及规范化。
设计以流程驱动的五中心技术平台架构,支撑三横两纵组织架构的落地,更加细致的将三条技术支撑线和两条业务服务线的工作职责进行标准化,打造一支责任清晰、分工明确、配合默契的项目团队,及时、快速的响应运营工作,保障业务的快速部署和稳定运行。
基于用云模式的多元化,超算中心构建覆盖物理装机、资源分配和联动、通用软件安装、应用管理、统计和智能分析、资源和基础架构监控、CMDB配置管理、工单管理、智能运维的统一运营平台,实现全局统一管理:
多云环境统一管理:对于不同厂商、不同虚拟化技术搭建的 公有云和私有云平台统一纳管,解决多入口、不同操作界面、管理复杂的问题。
多云环境统一运营:资源申请主动式响应,对已分配资源持续管控,资源申请和运维操作固化流程管控,杜绝管理不规范、避免管理风险。
多云环境统一运维和监控:对云资源和非云资源进行统一运维监控管理,当资源发生故障时,将问题及时通知给用户和管理人员。
异构资源统一管理:对多厂商的物理机、存储、网络等设备 以及虚拟化、SDN等异构资源进行统一管理。
高效批量部署:通过标准化、合规性的管理,批量安装通用软件,安装部署效率高,复杂基础环境实施统一标准进行快速部署。
从业务和管理维度对资源调度管理:解决分散式、独占式使用资源问题,对资源动态调配和统计,对资源使用情况进行优化分析管理,避免资源的闲置浪费,从而造成运维成本的增加。
在将云资源、基础架构管理及监控的同时,统一运营平台已实现平台巡检、应用巡检等基础工作的智能处理,并融合了基于ITIL的ITSM系统功能,将相关管理流程进行固化,实现问题的早发现、早分派、早处理,通过可视化界面跟踪流程处理的全过程,实现服务的闭环。
超算运维团队将继续跟踪行业发展趋势,完善运维能力模型,尤其是统一运营平台的开发,丰富指标管理体系和AI算法,为运维人员提供场景化以及自动化的问题分析手段,降低沟通成本、提高工作效率,实现面向数据驱动的IT智能运维监控与管理,使平台化运维进一步向智能化运维进阶。