大数跨境
0
0

业务连续性与灾难恢复

业务连续性与灾难恢复 云容灾备份安全治理
2018-02-19
5

业务连续性和灾难恢复

  • 业务评估(Business Assessment,BA) 

    • 风险评估(Risk Assessment):评估已存在的暴露

    • 业务影响分析(Business Impact Analysis,BIA):评估潜在损失

  • 业务连续性规划(Business Continuity Planning):纠正性措施

标准和最佳实践

  • NIST特别出版物800-34中概述了信息技术系统的业务连续性规划指南 

    1. 制定业务连续性规划策略声明。为制定业务连续性规划撰写提供必要指导的策略文档,并给权威机构分配必要的职位来完成这些任务。

    2. 进行业务影响分析。识别关键功能和系统,并允许组织根据功能和系统的必要性,对其进行优先级排序。识别漏洞和威胁,并计算出风险。

    3. 制定预防性控制方法。一旦识别到威胁,需要确定并实施控制和对策,以较为经济的方式来降低组织的风险级别。

    4. 制定恢复战略。制定方法,以确保系统和关键功能可以快速恢复。

    5. 制定应急计划。制定组织在危急的状态下仍然可以保持业务正常运行的措施和指引。

    6. 测试计划及进行培训与演练。测试计划,以确定业务连续性计划中的不足之处,进行培训以确保个人对他们应该负责的任务做好充分的准备。

    7. 维护计划。把步骤安排得井井有条,确保BCP得到定期更新。 

 使BCM成为企业安全计划的一部分

  • 建立和维护当前连续性计划最关键的部分是管理层支持

BCP项目的组成

  • BCP委员会 

    • 业务部门

    • 高级管理人员

    • IT部门

    • 安全部门

    • 通信部门

    • 法律部门

BIA

  • BCP中最重要的步骤

  • 威胁需要映射到以下特征 

    • 最大可容忍的停机时间和活动中断

    • 对业务和生产力的影响

    • 财务上的考虑

    • 管理职责

    • 信誉

  • 主要目标 

    • 确定关键业务功能

    • 找出灾难恢复时需要什么资源

    • 预估所能容忍的中断时间:可承受的最长停机时间(Maximum Tolerable Downtime,MTD)或最长中断时间(Maximum Tolerable Period Disruption,MTPD)

  • MTD估算 

    • 关键(critical):几分钟到几小时

    • 紧急(urgent):24小时

    • 重要(import):72小时

    • 普通(normal):7天

    • 非必须的(non-essential):30天

  • BIA的详细步骤 

    1. 选择单个的人员进行访谈以完成数据收集

    2. 创建数据收集技术方法(调查、问卷、定性、定量)

    3. 确定公司的关键业务功能

    4. 确定这些功能依赖的资源

    5. 计算没有这些资源可以生存多久

    6. 确定这些功能的漏洞和所面临的威胁

    7. 计算每个不同业务功能的风险

    8. 将发现及结果形成文档并报告给管理层

恢复战略

  • 恢复时间目标(Recovery Time Objective,RTO):使基础设施和系统恢复运行的时间

  • 工作恢复时间(Work Recovery Time,WRT):恢复数据、测试流程以及使所有事情“活”过来可以进行生产的时间

  • MTD = RTO +WRT

  • 恢复点目标(Recovery Point Objective,RPO):最大可容忍的数据丢失量,用时间来衡量

设施恢复

  • 平均故障时间间隔(Mean Time Between Failure,MTBF)

  • 平均修复时间(Mean Time To Repair,MTTR)

  • 互惠协议(reciprocal agreement):最重要的考虑因素是硬件和软件兼容性

  • 完备场所(hot site) 

    • 已经配置妥当,几小时内就可以投入运行,唯一缺乏的资源是数据和处理数据的人员

    • 支持公司进行年检

    • 最贵

  • 基本完备场所(warm site) 

    • 只进行了部分配置,使用了一些设备和基础设施组件,但没有配备昂贵设备(如通信设备和服务器)

    • 无法进行年检,无法确定是否能在几小时内恢复工作状态

    • 使用最广泛

  • 基础场所(cold site):一个空的数据中心

  • 冗余场所(redundant site):设备、配置、数据与主站点完全相同的场所

  • 滚动完备场所(rolling hot site)或移动完备场所(mobile hot site):装在大卡车或拖车后的移动的、自给自足的数据设施,常用于军事或大型探险公司

  • 异地场所:距离原始站点必须足够远(至少5英里),许多低-中级关键设备最少15英里,关键操作的推荐距离为50-200英里

 数据备份选择方案

  • 归档位:创建或修改一个文件,文件系统将其归档位设为1

  • 完全备份(full backup) 

    • 备份所有数据,清除归档位

    • 恢复过程只需一步,但备份和恢复过程可能需要很长时间

  • 差量过程(differential process) 

    • 对最近完全备份以来发生改变的文件进行备份,不改变归档位的值

    • 首先恢复完全备份,然后在此基础上应用最新的差量备份

  • 增量过程(incremental process) 

    • 对最近完全备份或增量备份以来发生改变的文件进行备份,清除归档位

    • 首先恢复完全备份,然后在此基础上依次应用每个增量备份

    • 在备份阶段比差量过程时间短,在恢复阶段比差量过程时间长

电子备份解决方案

  • 磁盘映像(disk shadowing):用于确保数据的可用性,以动态的方式创建数据,将其保存在两个或几个完全相同的磁盘上

  • 电子传送(electronic vaulting):在文件发生改变时进行备份,再定期将他们传送到一个异地备份站点

  • 远程日志处理(remote journaling):另一种离线数据传输方法,只将日志或事务处理日志传送到异地设施,而不传送实际的文件

  • 磁带传送(tape vaulting):数据通过一条串行线路传送到异地设施的备份磁带系统中

 高可用性(High Availability,HA)

  • 冗余、容错、故障转移提高系统的可靠性,高可靠性实现高可用性

 测试和审查计划

  • 测试和灾难恢复演练应当至少每年进行一次

  • 发现问题和错误是演练的首要目的

  • 核查性测试:也称为桌面检验测试,BCP副本被分发至不同的部门和职能区域接受审查

  • 结构化的排练性测试:各部门或只能区域的代表聚集在一起对计划进行检查,从头至尾将计划的不同场景演练一次

  • 模拟测试:与结构化的排练性测试相似,所有操作和支持职能部门的员工或他们的代表集中起来

  • 并行测试:将备用场所系统处理的结果和原来场所正常处理的结果进行比较

  • 全中断测试:将原站点关闭并将业务处理转移到备用站点完成

  • 对生命的保护是至关重要的,在抢救物品之前应该先抢救人


【声明】内容源于网络
0
0
云容灾备份安全治理
分享云灾备规划、实施、运营、备份与恢复、数据安全、数据治理;窥视国内外备份软件与监控软件知识前沿水平线; 越努力,越幸运!
内容 2171
粉丝 0
云容灾备份安全治理 分享云灾备规划、实施、运营、备份与恢复、数据安全、数据治理;窥视国内外备份软件与监控软件知识前沿水平线; 越努力,越幸运!
总阅读8.7k
粉丝0
内容2.2k