在信息和互联网高速发展的背景下,互联网产品规模也呈爆发式的增长,大量应用需要横跨不同网络终端,并广泛接入第三方服务,IT系统架构越来越复杂。加之复杂多变的市场环境和快速发展的业务,使得传统IT运维面临着“不变则废”的境地。
一、互联网时代的运维压力
据了解,百度服务器的规模近5年来增长了15倍以上,达到数十万台。数据规模在过去两年已达到EB级别,数据总量接近两个EB,日志更新量每天超过1PB;最大单集群离线计算规模超万台,达到10万核的计算能力。
互联网的特征之一就是【快】,快速迭代是常态。百度每天有400多个上线,比5年前增长4倍。而与此同时,云计算平台出现的各类故障和异常与一年前相比增长了200%,给运维带来巨大的挑战。
互联网的高速发展还催生了一大批优秀的电商企业,对于发展势头强劲的电子商务来说,同样面临着互联网时代运维“危机”。
在刚刚过去不久的2016双十一活动中,根据阿里巴巴公布的实时数据,截至11日24时,2016天猫双11全球狂欢节总交易额超1207亿,无线交易额占比81.87%,覆盖235个国家和地区。再一次勇攀了双十一的历史高峰。

在阿里的天猫双十一中,支付峰值最甚高达12万笔/秒,处理的总数据量高达百亿。相比日常的电子商务交易,在“双十一”这种特殊的购物期间,IT系统会面临来突发性的高并发访问导致的服务器过载、在线交易系统反应迟滞甚至瘫痪的危险,系统运维的任何一环“掉链子”带来的损失都不可估量。
正如马云所言,我们身处在一个数据为王的时代,世界正从IT走向DT。在移动互联、云计算和大数据的穹顶之下,未来的IT运维管理被赋予了更多的信息挖掘和数据分析的重任。
二、传统IT运维遭遇“瓶颈”
随着传统企业信息化的深入,企业越来越多的业务应用依赖于IT来驱动,这意味着IT需求变得越来越强,服务器等数量爆增,管理起来日益繁杂,特别是IT部门如何快速响应业务需求,就成为一个重要的指标。
此外,加之云计算、虚拟化时代的开启,在大型云计算数据中心面前,需要灵活自动地去管理虚拟的计算节点、存储和网络等资源。这种矛盾日益强烈,导致传统IT运维模式变成了瓶颈,不进行升级的话,结果会是死路一条。
事实上,传统IT运维发展至今,已经曝露了一些的弊端:
首先,人员成本偏高。不同阶段的系统交叉在一起,IT环境日趋复杂,管理难度大,采用人工的方式,跟不上业务快速发展的需求。Gartner的调查也发现,IT运维成本中,源自技术或产品(包括硬件、软件、网络等)成本只占20%,流程维护成本占40%,运维人员成本高达40%。
其次,自动化程度低。传统IT运维方式只有发生故障或影响业务连续性时才会被发现,并非是主动预警、修复,所以IT运维往往陷入“救火队员”的角色中,故障报警此起彼伏,恶性连锁反应持续发生,还会导致企业对IT运维的满意度大幅降低。而随着业务应用都跑在IT设备上,这种现象会酿成灾难;
再次,随着计算、存储资源的池化,资源利率用提升,但给IT运维带来了麻烦,以往人工更新、检测和故障排除的模式,在面临虚拟化的成千上万甚至更庞大的资源管理时,根本玩不转。
所以,当前已经有很多企业开始思考甚至尝试,利用大数据技术分析处理日益累积的运维数据,对其进行运维挖掘预测,从而改进当前的工作方式,以支撑业务更好地运转。
三、大数据对运维管理的应用价值
运维大数据分析技术的方法,从监控大数据分析维度,归纳总结无外乎两类分析是最常见和最核心的,一个是数据相关性分析,另一个是数据周期性分析。
怎么理解相关性呢?举个栗子。
假设A服务器和B服务器在业务上相链接。A服务器的Tomcat,因CPU占用高,告警了;B服务器的Oracle死锁数增长,产生了报警。结果,用大数据相关性分析技术分析历史的运维告警数据却发现这两个看似毫无联系的指标同时告警的概率居然高达90%。
更让人惊讶的是,在进一步的相关性挖掘后又发现:往常的告警信息与A服务器Tomcat的CPU同时告警的指标居然还有C交换机的某端口流量和A服务器的URL响应时间,而几率分别为85%和80%。
很显然,运维人员便可利用运维大数据体现出的相关性概率挖掘出告警产生的根源指标问题,进而不断丰富运维关系库、知识库,从而从根本上解决潜在问题、消除安全隐患。
周期性分析(同一维度不同时间)——用于同指标性能、同故障告警、同日志记录等按周期发生的规律性,主要用于时序挖掘分析和反复事务挖掘。
就拿我们前面提到的“双十一”活动举例,在活动期间会面临着服务器过载、在线交易系统反应迟滞甚至瘫痪的危险。在此情况下,运维人员如何来保障业务高峰期整个IT体系的稳定呢?他们的做法一般是根据业务部门告知的业务量上涨预估值来判断IT性能增长的百分比。
也就是说,通过预估的方式来添加服务器、集群节点等整体配置,从而提升IT的性能,保障业务高峰期的IT系统的承载力。 很显然,这种“拍脑袋”式的IT运维决策存在很大风险,如果IT投入过少,将容易导致整个业务运营服务系统的崩溃,反之则造成浪费。
相反,根据运维大数据周期性分析而生的指标基线预测的优势也就体现出来。通过大数据对历史性运维数据的学习、分析,可预测出未来一段时间(7天)内各项指标值的变化趋势图,运维人员便可根据基线预测知晓节假日高峰期各项IT指标的可能运行形态,进而可以提前采取措施,深层次保障业务系统的稳定性、安全性。大数据在此就发挥了重要的作用。
大数据的价值挖掘本就不是一个简单、单一的过程,其中内容牵扯甚广,需要在数据规律的学习过程中不断完善。而通过运维大数据的分析计算方法也不仅仅只有上述两种。更多情况下,应该是以相关性分析和周期性分析作为基础,两者相互结合渗透,再贴合运维业务对分析结果进行筛选和可视化呈现。
在可预见的未来,运维将朝着变被动解决为主动出击的方向前进。大数据运维不仅能满足我们对数据中心运维的要求,解放生产力,还能使我们的运维管理更加规范化,标准化,从而真正意义上的实现智能化运行。
--------------------------------------
人工智能、大数据的前沿资讯
深度的商业内容解析
更 多 精 彩
请 先 关 注
⏬
海致网络技术(北京)有限公司是国内领先的大数据技术与服务公司,自成立来为二千多家企业提供了知识图谱、智能营销、用户画像及智能运维等大数据技术及解决方案,并获得了 “2016年中国人工智能领军企业” 称号。

