大数跨境
0
0

运维那些事儿 |新业务当前,如何开展运维工作?

运维那些事儿 |新业务当前,如何开展运维工作? 北塔软件服务
2019-04-12
1
导读:接手一个新业务对于运维人来说,应该做好哪些工作,才能事半功倍呢?


如果一项新的业务摆在你的面前,做运维的你,该如何开展新工作才会事半功倍呢?


01

准备工作


了解业务相关的人
研发、研发leader
测试、测试leader
产品经理

......

联系方式存下来,拉个群,出了问题可以找到对应的人


02

业务概要了解 
全方位了解你接手的新业务
了解业务是干什么的
了解业务的上下游
了解服务部署情况

......


03

业务串讲 
全方位了解你接手的新业务
让研发或者上一任运维同学准备一个PPT业务串讲
如果业务有单点,不接,请研发改造
即使对运维的老板的老板也要说清楚,单点导致的问题,运维不背

......

04

资产梳理 
资产梳理
用到了哪些域名,这些域名对应了哪些业务?
有一个CMDB帮助你能拿到更详尽的信息吗?
机器是否需要有备机、备件,机型是否可以统一?

......

05

基础监控 
资产梳理
  • 知道有哪些资产了,就可以对这些资产做监控了,域名连通性监控/延迟监控

  • 虚IP的连通性监控/延迟监控

  • 机器宕机监控

  • 机器硬件监控

  • 系统运行的进程总数监控

  • 系统参数配置监控

......


06

服务梳理 
了解网络拓扑图


了解每个模块的情况,部署在哪些机器上,部署在哪个目录,用什么账号启动的,日志打到哪里了,用什么语言编写的,怎么上线的,主要吃CPU资源还是内存还是磁盘还是IO,需要预留多少资源,平时利用率是多少,应该配置多大的阈值做监控,是否需要watchdog自动拉起,日志里出现哪些关键字需要报警,以及其他各种需要注意的问题......


07

业务监控 
对业务的监控


  • 基本的进程

  • 端口存活性监控

  • 机器利用率监控

  • 日志关键字监控

  • 日志不滚动监控

  • 关联的服务的监控

  • ......



08

标准化改造 



  • 机器命名方式、操作系统发行版、OS版本、第三方软件都要统一,做标准化方案

  • 服务扩容、变更、下线做一键化,不过可以交给研发上线,释放运维人力,权限要控制好

  • 重复的常规操作也要固化成脚本,一键完成

  • 梳理故障自愈场景,看平时有哪些故障的处理方式是固定的,抽象为脚本,报警之后自动触发,无人值守处理

  • ......


09

SOP梳理 



  • 线上没出故障之前,就应该提前预案,服务可能会出什么故障

  • 如果真有了故障,那么处理之后,把处理步骤记录下来,以备后用


10

故障演练 



  • 光有预案没有演练,是不靠谱的,没有经过验证的预案是不可信任的


  • 但大规模基础网络故障这种演练,还是要谨慎操作


11

关于沟通 



  • 接手一个新业务运维,势必与研发有各种沟通,每次沟通都要写会议纪要,发邮件出来,cc各方老大

  • 事后关键节点做check,如未完成,线下沟通,达成一致后追此邮件给结论,说明延期原因以及新的时间

  • 如果沟通不畅,建议请leader出面协调




作者:秦晓辉
链接:https://www.jianshu.com/p/65a01b5d61c7

原文有更改,来源:简书



更多内容

1、运维那些事儿 | IT运维圈的用人规则,现在知道还不晚

2、运维那些事儿 |运维人年终述职报告,你的,怎么说?

3、运维那些事儿 |运维人,你感到累吗?

4、运维那些事儿 | 2019,运维人修仙指南

5、运维那些事儿 | 2019,运维人拒绝踩坑





【声明】内容源于网络
0
0
北塔软件服务
北塔软件是专业从事IT运维管理产品研发、销售、咨询和服务的高新技术软件企业,致力于为中国用户提供从网络管理、IT基础架构管理到业务服务管理的全面优质解决方案。目前超过8000行业用户的共同选择,全国技术支持电话:400-820-7719
内容 347
粉丝 0
北塔软件服务 北塔软件是专业从事IT运维管理产品研发、销售、咨询和服务的高新技术软件企业,致力于为中国用户提供从网络管理、IT基础架构管理到业务服务管理的全面优质解决方案。目前超过8000行业用户的共同选择,全国技术支持电话:400-820-7719
总阅读100
粉丝0
内容347