大数跨境
0
0

幕后的英雄——记数据安全运维部

幕后的英雄——记数据安全运维部 智业人
2015-05-21
1
导读:2015年5月5日下午,徐志峰拖着疲倦的身体回到旅馆,稍作洗漱,还来不及吹干头发、换上睡衣,他就倒在床上昏睡

2015年5月5日下午,徐志峰拖着疲倦的身体回到旅馆,稍作洗漱,还来不及吹干头发、换上睡衣,他就倒在床上昏睡过去。在这之前,徐志峰已经连续工作了40个小时以上:5月3日下午,还在放假的他突然接到抢修福建附一医院数据库的任务,于是他立马联合医院项目组成员开展数据库检查、结果汇报、方案讨论、方案实施等一系列抢修工作。5月4日下午,医院系统恢复正常,但为了排查隐藏威胁,徐志峰仍坚持在岗位上测试数据,直到5日下午才匆匆赶回旅馆休息。

40多个小时的连续工作,这在外人看来是一个难以想象的超长工作时间,但对于徐志峰所在的部门——数据安全运维部的每一名成员来说,这却是家常便饭。岗位的特殊性常常使得数据安全运维部人员在处理医院系统问题时,长时间得不到休息。曾经有一位数据安全运维部人员为尽快恢复一家二甲医院意外丢失的业务数据,整整奋战3天2夜,最终才将该院数据完全恢复。

数据安全运维部成立于2012年,其前身是公司初建时期为应对信息系统运行过程中所发生的各种故障和问题而设立的DBA小组,隶属于系统集成部门管理,之后经历了多次公司组织架构调整,曾经归属于不同的部门管理。由于公司一直高度重视信息系统的安全运行,所以即使经历多次调整,DBA小组仍一直保持着相对的独立性和延续性。2012年,DBA小组正式成为独立部门,改名数据安全运维部,负责根据项目需求与系统集成商进行系统软硬件运行环境的准备、提供各类系统与数据库技术支持及各类系统与数据库护航服务,即规划、安装、配置、实施、调优、迁移系统、集群资源,并处理系统与数据库故障。

“加班”一直是数据安全运维部工作的主调。由于业务的发展、功能的改进等原因,医院系统总是需要不断地进行升级更新。为了不影响白天医院的工作,日常的系统后台维护及系统升级、维护与迁移工作都必须安排在夜间低业务期进行,并且要保证在下一个医院人流高峰期到来前阶段性完成。因此数据安全运维部人员经常需要在工作日医院下班后或者双休日加班开展系统维护升级工作。如若遇到较大的升级项目,甚至长时间无法有休假,例如2009年至2010年公司启动Oracle升级计划,将所有客户的32位的Oracle9i版本升级为64位的Oracle10g。在这一年期间,部门全体员工牺牲了大多数周末和节假日,利用医院关门、就诊人流较少的时间实施升级操作。经过1年的努力,完成大部分项目的升级,提高了许多医院信息系统的整体运行效率与稳定性。

相对于较有规划的维护、升级工作,系统故障的出现则总是让人措手不及。因为医疗行业的特殊性,医院系统一旦出现问题,可能造成患者情绪激动、医务人员工作慌乱、医院业务停顿,甚至产生医院信息系统内部信息丢失的严重后果,并会给国家、医院及患者带来严重的影响。因此医院信息系统必须保证24*7的不间断运行。但医院系统经常会受到各种环境因素和人为因素的威胁,特别是断电、静电、电磁干扰、洪灾、火灾、地震、意外事故等环境危害或自然灾害造成的系统故障,常常让人始料未及、避无可避。为了能在任何时候都及时响应医院需要,并且在最快时间内修复故障系统,数据安全运维部要求全体人员24*7小时保持随时待命状态,并采用扁平化的应急管理工作流程,设置第一负责人制:第一个接到医院求助需求的成员即成为该项目需求的第一负责人,作为第一负责人必须第一时间开始处理全部问题,这确保了项目负责人可以第一时间掌握第一手信息资料,第一时间对医院需求作出反馈,同时对项目细节有全面的了解。如若接到需求的第一负责人无法第一时间分身解决问题,则必须在最短时间内找到可交接的其他同事,让其成为第一负责人全面接手问题。通过第一负责人制,数据安全运维部可做到每个项目都有负责人,每个项目做到第一时间反馈。这种任务的快速分配,节省了大量因工作流程、交接而花费的时间,能够马上对医院提出的问题作出反馈,并采取行动。

除了处理紧急问题的“第一负责人”制度以外,为了加强内部沟通、相互了解工作内容及进行日常工作的安排,数据安全运维部还借用云端的日程管理软件,用“日志+看板”的方式进行工作汇报及安排。在“日志”中,数据安全运维部每位员工根据每日工作内容进行项目事项规划,将自己近期的工作内容及短期工作计划系统罗列出来。同时在“看板”中,向所有成员共享全部项目情况,将每个项目的第一负责人、背景、项目内容、项目进度进行实时更新提醒,如发生第一负责人转移,可保证交接同事已了解所有项目事情,快速接手。这给常常分散在各地的数据安全运维部人员提供了有效的沟通管理平台,大家在平台上安排工作事项、交流工作内容、分享工作经验、相互监督、保持工作节奏和效率。

通过“第一负责人”制及“日志+看板”平台,再加上成员不辞辛劳、不分昼夜地努力工作,数据安全运维部一直保持着较高的问题处理效率及沟通交流效率。这得到了许多医院的肯定,就在最近,数据安全运维部还收到了表扬信,福建附一就徐志峰5月3日至5月5日帮助修复系统的处理态度及方法予以了肯定。

目前数据安全运维部共有5名成员,全部有较长的Oracle数据库运行维护工作经历,对系统后台Oracle数据库具备极强的维护与处理能力:除了擅长信息系统各类安全解决方案规划设计的Oracle OCM徐志峰以外,还有熟悉医疗行业各类系统特性的Oracle OCP赖小琴、对数据库与操作系统底层架构颇有研究的技术经理蔡茂捷、精于Oracle GoldenGate容灾方案规划与实施及容灾备份问题处理的DBA詹文俊和总能应对数据库各类技术问题的DBA林时亮。长期的工作中,他们整理了自己的思路,总结了工作心得:

徐志峰:学习,学习,学习,选择了IT你就选择了永远的学习,不可懈怠。

赖小琴:DBA的工作需要细致和耐心,特别是现场的故障处理,在承担着巨大压力的同时,更需要细致耐心的处理。让我们伴随着压力而成长。

蔡茂捷:DBA的工作充满着各种挑战,承受的压力也相当巨大,同时这也是一个能收获成就感的工作。时光如梭,转眼间加入智业大家庭已经1年时间,回顾这一年的工作和生活,我感到充实和满足。感谢部门经理及同事在工作上给予的帮助,希望我能通过自身的努力,为公司创造更多的价值。

文俊真正的工作经验一定是长时间一点一滴积累出来的,是不可一蹴而就的,DBA工作更是如此。希望在将来的工作当中,我能够通过自己的努力,在工作当中独当一面。

林时亮:虽然DBA永远在幕后。只有故障时才会让人想起,但这并不影响它的重要性。对我而言DBA不仅是一份工作更是一份信念。唯有坚持这份信念才能看见别人看不见的美好。

就像林时亮所说的,DBA永远在幕后,永远在每一家系统正常运行的医院背后默默付出。他们工作于每一个夜深人静之时,承担着修复紧急故障的巨大压力。一位DBA人员回忆起自己处理一次医院HIS崩溃事件时,其过程的一波三折让他至今记忆犹新:当时正值中秋假期,他在接到故障求助后,立即从老家打车赶赴现场。在赶赴现场过程中他了解到故障可能是由于医院电力故障导致服务器异常关闭,在电力恢复后医院因无连接数据库,尝试手工打开数据库出错造成的。好在医院方面又反馈数据库正在采用Oracle在备份服务器上进行实时的数据同步以及定时的数据库备份。到达医院后,他迅速来到机房,开始对Oracle数据库进行角色切换处理。在处理的过程中他又发现Oracle临近的一个归档日志存在损坏,判断原因可能同样由于断电异常终止。这一情况只能通过强制打开损坏数据库修复损坏数据以及使用定时备份恢复数据两种方式恢复系统,前者时间无法确定,视数据损坏情况可能为几分钟到十几小时;而后者由于该院数据量过于庞大,需要花费20个小时以上,这期间将经历医院最高潮的就诊人流。经过与院方的简短讨论,他决定两种方式同时进行。在备份还原的同时,他强制打开数据库,由现场人员配合进行应用程序业务测试,使用数据库分析工具分析数据库损坏情况,经过一夜的测试与处理,解决了大量损坏的数据。此时已早上7点,医院马上要开始运营,虽然测试应用不再产生错误,但要提供给业务使用,仍存在较大风险,因此大家都做好了最坏的打算,全员戒备,准备随时面对运营后的数据问题。经过3个小时的运营,最坏的情况发生了,他只好放弃一晚上奋战的心血,顶住压力等待备份还原完成。4小时后,数据备份恢复完成,他又快速地投入到新旧数据的并轨对接中。又是一夜无眠的奋战,第二日早晨,他完成了数据接轨和测试,完整地恢复了系统业务。

“严重的故障是它的敌人,寂静无声的深夜是它的战场,坚守岗位的精神是它手里的利剑,服务医院的赤诚之心是它坚实的盾牌。”数据安全运维部就是这样一个默默奋战在幕后的英雄。

未来,为了能够更好地担当医院系统的“后盾”,数据安全运维部将会定期开展技术主题的学习交流会,每期指定主题负责人,通过演讲分享经验,组织讨论来提升技术水平。除此之外,在业务方面,数据安全运维部还将致力于Oracle12c的升级,帮助医院实现真正的数据库云,更高地提升数据库的安全容灾及备份水平,给予医院系统更完善的保障。


【声明】内容源于网络
0
0
智业人
智业软件最主要的发声筒和讨论平台。在这里,您可以看到智业人在聊行业、谈技术、说产品、看趋势,以智发声,碰撞观点,一齐在医疗信息化道路上摸索前进。
内容 932
粉丝 0
智业人 智业软件最主要的发声筒和讨论平台。在这里,您可以看到智业人在聊行业、谈技术、说产品、看趋势,以智发声,碰撞观点,一齐在医疗信息化道路上摸索前进。
总阅读616
粉丝0
内容932