如果一项新的业务摆在你的面前,做运维的你,该如何开展新工作才会事半功倍呢?
01
......
联系方式存下来,拉个群,出了问题可以找到对应的人
02
......
03
......
04
......
05
知道有哪些资产了,就可以对这些资产做监控了,域名连通性监控/延迟监控
虚IP的连通性监控/延迟监控
机器宕机监控
机器硬件监控
系统运行的进程总数监控
系统参数配置监控
......
06
了解每个模块的情况,部署在哪些机器上,部署在哪个目录,用什么账号启动的,日志打到哪里了,用什么语言编写的,怎么上线的,主要吃CPU资源还是内存还是磁盘还是IO,需要预留多少资源,平时利用率是多少,应该配置多大的阈值做监控,是否需要watchdog自动拉起,日志里出现哪些关键字需要报警,以及其他各种需要注意的问题......
07
基本的进程
端口存活性监控
机器利用率监控
日志关键字监控
日志不滚动监控
关联的服务的监控
......
08
机器命名方式、操作系统发行版、OS版本、第三方软件都要统一,做标准化方案
服务扩容、变更、下线做一键化,不过可以交给研发上线,释放运维人力,权限要控制好
重复的常规操作也要固化成脚本,一键完成
梳理故障自愈场景,看平时有哪些故障的处理方式是固定的,抽象为脚本,报警之后自动触发,无人值守处理
......
09
线上没出故障之前,就应该提前预案,服务可能会出什么故障
如果真有了故障,那么处理之后,把处理步骤记录下来,以备后用
10
光有预案没有演练,是不靠谱的,没有经过验证的预案是不可信任的
但大规模基础网络故障这种演练,还是要谨慎操作
11
接手一个新业务运维,势必与研发有各种沟通,每次沟通都要写会议纪要,发邮件出来,cc各方老大
事后关键节点做check,如未完成,线下沟通,达成一致后追此邮件给结论,说明延期原因以及新的时间点
如果沟通不畅,建议请leader出面协调
作者:秦晓辉
链接:https://www.jianshu.com/p/65a01b5d61c7
原文有更改,来源:简书
2、运维那些事儿 |运维人年终述职报告,你的,怎么说?
3、运维那些事儿 |运维人,你感到累吗?
4、运维那些事儿 | 2019,运维人修仙指南
5、运维那些事儿 | 2019,运维人拒绝踩坑


