纯干货!酷暑盛夏,机房故障频频发生。上周刚刚落幕的中国数据中心产业发展大会上,数据中心运维管理标准起草小组组长、中科仙络董事长程小丹和现场400多位观众分享了关于数据中心运维的热门话题,小编为大家原文原图重现程小丹精彩演讲。


1数据中心上头条
Danny:“今年是做运维的同学比较多灾多难的一年,各种机房故障频频上头条。这跟两方面有关系,一是数据中心和人们的生活越来越密切,二是媒体透明度越来越高。”

267%和运维相关
Danny:“引起数据中心中断的原因是什么?在Uptime2013年异常事件报告里,对260多个事件做了统计:只要异常状况都定义为事件,一个机房如果出现异常状况,不一定导致系统中断。事件发生的原因30%左右是建设因素,另外有67%的事件产生是和运维相关的。”

3拯救和运维
Danny:“当出现事件以后,会有两种可能性,一种是被拯救,一种直接宕机了,拯救因素里,其中有大约一半跟设计有关,包括双路电源、设备的运维等,我们发现还有50%和运维人员的干预有非常大的关系。
运维人员有两方面的价值,一方面是运维人员的干预,出事以后采取相应的行动,这是数据中心的运行阶段;另外就是预防性的维护,也就是平时做的保养。从这方面来看,运维人员主动干预和预防性维护对于出事以后的拯救有非常大的价值。因此,一个数据中心如果想进行良好的运行,保证最高可用性,运维有非常大的价值。”

4能效和运维
Danny:“另一个话题是运行能效,前面有很多案例都在告诉我们,即使在设计阶段,对于整个数据中心的节能做了周密考虑,但是如果在运维阶段做的不是很好,之前那些非常好的设计不一定会得到真正的实现,因此,运维对于实际的绿色运行有非常重要的作用。”

5建设和运维,两手都要硬
Danny:“总结一下前面的观点,我们认为真正负责数据中心运行管理的人关心两件事,第一机房不能停电,不能中断。第二个希望有比较高的效能,从这两点来说我们认为建设和运维都是同样的重要,而且这两者是相乘的结果,即使设计非常好,运维没有做好,仍然有可能得出非常低的性能表现,也充分说明运维的重要性。”

6行业发展需要运维管理标准
Danny:“从行业的整体发展来看,我们需要制定一个针对数据中心场地运维管理的标准。怎么样才能做好一个标准?在工作组讨论时考虑到几个问题:一是要站在管理的高度,让数据中心的领导者包括IT部门的领导者充分重视运维,我们应该从管理的高度看标准;第二方面我们认为需要有相对的专注度,我们非常专注于场地;第三是时间纬度方面,我们需要从这个数据中心的生命周期开始,同时我们强烈建议运维人员参与到规划设计和建设的过程中。

7从用户中来 到用户中去
另外非常重要的一条是,我们认为标准应该从用户中来到用户中去。这次在标准制定过程中非常幸运的是,这是我们产业上的共同要求,包括三大运营商、工农中建以及人民银行,大型IDC如世纪互联、互联网公司如百度这些大型的数据中心的拥有者都非常积极地参与到整个标准制定过程,从这一点也能看出新标准是行业发展过程中大家的共同心声。”


8你必须明确管理目标
Danny:“标准里面有几个值得大家关注的地方,第一条,要明确管理的目标。也就是说首先要确定一个管理目标,要和领导明确,你对我的期望是什么,给我的资源够不够。这成为最核心的一条。

9管理范畴和分项管理
这之后要建立管理范畴,实际上很多机房出事的时候,并非在运维人员管理范畴之内出事。最常见的例子是停电,即使这超越了你的管理范畴,最终挨板子的还是你。其次是安全管理,我们的能源安全管理,人员安全的问题,场地有特殊性,安全管理尤其是人身安全对我们来说是非常重要的环节。
在这之后,我们才算是进入到了真正的运行阶段,其中有一条,真正开始运行的话,人员管理非常重要,机房人员最主要的就是人和流程,对人员的管理培训和认证也会有相应的要求,也就是我们正在推出的《数据中心场地基础设施岗位人才资格认证体系》。第二个方面我们讲设施管理,预防性维护在于设施管理,以及运行管理。”

10从测试验证看标准
Danny:“举个测试验证的例子,在国外测试验证已经成为非常标准的体系,因为我们数据中心的工程是一个集成的工程,把很多子系统放在一起,整个系统集成以后,是否能够表现出作为一个整体系统的完整需要达到的性能,满足运行的要求,实际上只有通过系统链条完整的测试验证才能证明。
有一些客户会认为UPS、空调都已经分别经过测试了,试想一下,要是组装一辆汽车,你能保证轮胎是很好的,也能保证发动机非常好,但是从来没有组装在一起做相应的试车实验,这样的车你敢开吗?我们认为如果真正想做好运维,首先需要非常了解你的设施,了解你的设施最好的办法就是测试验证。”

11从人员配置看管理目标
Danny:“另外我们看一个人员配置的例子,人员配置方面目的之一是推动我们的运维主管和领导做沟通,很多运维经理和领导沟通项目时,领导不愿意配置更多的人。但我们认为人员配置决定了你能够响应的速度,我们看到两种情况正在发生第一种情况,很多时候用户把机房交给物业管理,物业只有一名电工,这个电工能起到的作用是报警的时候能够给你一个应急的通知状态,通知相关人员到现场,这个过程就已经产生一定的滞后,很可能在这段滞后时间里面会产生更严重的后果。
另一种情况,比如百度这样的团队,每个现场都有四个人,包括电力方面、暖通方面、和弱电方面等专业人员,这样的人员配置就可以做到及时的应急响应。最终配置要取决于运维管理目标,如果领导要求非常高的运维管理目标,就可以要求配置相应的人员,这是人员配置的一些标准。”

12最重要的是人员和流程
Danny:“总结一下,数据中心要想做到良好运行,最重要的两条就是人员和流程。很多故障的发生仅仅因为我们没有严格的按照操作流程来操作。任何操作无论是内部的运维人员还是外部请来的供应商的人员,都必须遵照同样的操作流程来操作。这个操作流程需要事先写好,且要经过审核,同时要确保运维人员知道怎么操作。

13运维管理等级认证
在标准基础上我们还有等级认证,我们的运维管理分了三个等级,A级AA级AAA级,近期我们在广州深圳开始对一个集团进行第一个AAA级评定。
我们并不认为所有机房都要申请成为AAA级,你希望达到什么样的管理目标,投入什么样的资源,这样是最合适的。”

来源:现代数据中心网


客户心声之感谢信,请点左下角“阅读原文”。
什么是核心竞争力,什么是口碑相传,在这里,你都可以看到。真诚,共享,永远以客户满意为己任,做客户的咨询师,金桥—您最放心的选择


