Azure Site Recovery 不仅仅是一种帮助你在系统中断时恢复的工具。Azure Site Recovery 可在主站点和辅助站点之间复制工作负载。Site Recovery 还可用于将 VM 从本地基础结构迁移到 Azure。
例如,要保护工作负载免受地震影响,首要任务是查看公司的当前业务连续性和灾难恢复 (BCDR) 计划。为需要保护的系统确定不同的恢复目标和范围。
在此单元中,你将调查 Azure Site Recovery 是如何帮助实现这些目标的,又是如何在发生灾难时对资源进行故障转移和恢复。
业务连续性和灾难恢复
丢失服务可能会给员工和用户带来困扰。系统不可用的每一秒都可能造成公司收入损失。如果你的公司为提供的服务的可用性签订了协议,还可能因违反这些协议而面临经济处罚。
BCDR 计划是公司起草的正式文档,其中涵盖灾难或大规模系统中断的范围和发生这些事件时要采取的操作。每种中断情况都按其特点进行了评估。例如,整个数据中心断电时,会实施灾难恢复计划。
在此示例场景中,发生了地震,受损的通信线路导致数据中心在修复之前都无法使用。这种规模的灾难可能会导致服务中断几天(而不是几小时),因此必须调用完整的 BCDR 计划以恢复服务。
在 BCDR 计划中,确定应用程序的恢复时间目标 (RTO) 和恢复点目标 (RPO)。这两个目标都有助于实现你的业务在没有指定服务情况下的最大可容忍小时数,以及预期的数据恢复过程。让我们更详细地了解每一项。

恢复时间目标
恢复时间目标是一个度量值,指示在灾难发生之后、正常服务恢复之前,你的业务可维持的最长时间。假设 RTO 为 12 小时,这意味着在业务核心服务未运行的情况下,可以持续运营 12 小时。如果故障时间为 24 小时,你的业务将受到严重损害。
恢复点目标
恢复点目标是一个度量值,指示灾难期间,可接受的最大数据丢失量。公司通常可以决定备份频率:每 24 小时一次、每 12 小时一次,甚至实时备份。如果发生灾难,总会丢失一些数据。
例如,如果每 24 小时执行一次备份(午夜执行),第二天上午 9:00 点发生灾难,则会丢失 9 个小时的数据。如果公司的 RPO 为 12 小时,那么情况还好,因为只过去了九个小时。如果 RPO 为 4 小时,则会出现问题,对业务产生损害。
什么是 Azure Site Recovery?
Azure Site Recovery 可支持灾难恢复计划,因为它可以将工作负载从主站点复制到辅助站点。如果主站点出现问题。可以自动调用 Site Recovery,将受保护的虚拟机复制到其他位置。故障转移可以从本地到 Azure,也可以从一个 Azure 区域到另一个 Azure 区域。
Azure Site Recovery 的一些重要功能包括:
集中管理:通过 Azure 门户,可以对复制进行设置、管理和故障转移,还可以调用故障回复。
本地虚拟机复制:根据需要,可将本地虚拟机复制到 Azure 或辅助本地数据中心。
Azure 虚拟机复制:可以将 Azure 虚拟机从一个区域复制到另一个区域。
故障转移期间的应用一致性:在复制期间,通过使用恢复点和应用程序一致的快照,虚拟机将始终保持一致状态。
灵活的故障转移:可以以测试形式按需运行故障转移,也可以在实际灾难发生时触发故障转移。可以运行测试来模拟灾难恢复场景,而不会中断实时服务。
网络集成:Site Recovery 可以在复制和灾难恢复场景中实现网络管理。包含保留 IP 地址和负载均衡器,因此虚拟机可以在新位置运行。
设置 Azure Site Recovery

要启用 Azure Site Recovery,必须设置多个组件:
网络:使用复制的虚拟机需要使用有效的 Azure 虚拟网络。
恢复服务保管库:Azure 订阅中,在运行故障转移时存储迁移的 VM 的保管库。保管库还包含复制策略,以及复制和故障转移的源和目标位置。
凭据:用于 Azure 的凭据必须具有虚拟机参与者和 Site Recovery 参与者角色,从而允许修改 Site Recovery 连接到的 VM 和存储的权限。
配置服务器:在故障转移和复制过程中,本地 VMware 服务器可实现多种角色。以开放虚拟机设备 (OVA) 的形式从 Microsoft Azure 门户获取它,以便轻松部署。配置服务器包括:
进程服务器:此服务器充当用于复制流量的网关。它将缓存、压缩和加密流量,然后通过 WAN 将其发送到 Azure。进程服务器还会将移动服务安装到故障转移和复制的所有目标物理计算机和虚拟机上。
主目标服务器:在从 Azure 进行故障回复期间,此计算机会处理复制过程。
重要要从 Azure 故障回复到本地环境,即使只想将物理计算机复制到 Azure,具有配置服务器的 VMware vCenter 也必须是可用状态。 不能故障回复到物理服务器。
复制过程

设置必备任务后,即可开始复制计算机。它们是根据已创建的复制策略进行复制的。在首次复制的初始阶段,会将服务器数据复制到 Azure 存储。初始复制完成后,进行第二次复制。这次会将对虚拟机的增量更改复制到 Azure。
测试和监视故障转移
为灾难恢复设置好环境后,请测试环境,以确保配置正确,确保一切按预期正常运行。在独立的 VM 上执行灾难恢复演练,以测试配置。最佳做法是使用独立网络进行测试,以免实时服务中断。
尝试恢复演练的第一个任务是在 Azure 门户的“受保护的项”部分中验证测试虚拟机属性。可从“复制的项”窗格中查看最新的恢复点。在“计算与网络”部分中,根据需要调整虚拟机名称、资源组、目标大小、可用性集和磁盘设置。
可以从 Azure 门户的“设置” > “复制的项”部分启动恢复演练。选择目标虚拟机,然后为最近处理的恢复点选择“测试故障转移”菜单项。在同一菜单中选择 Azure 网络。要启动恢复作业,请在网络选择屏幕上选择“确定”。
恢复作业的状态和复制的虚拟机可通过恢复服务保管库的“概述”部分进行访问。复制的项的状态为:
正常:复制正常运行。
警告:指示可能存在影响复制的问题。
严重:检测到严重的复制错误。
如果一切正常,则复制的 VM 状态会设置为“已成功执行”。如果测试尚未完成,则状态会设置为“建议测试”。如果距离上次测试已超过六个月,则 VM 也会设置为“建议测试”。
知识检查
1. 设置 Azure Site Recovery 来保护本地 VM 所需的关键步骤是什么?
集中管理、本地虚拟机复制、网络集成、故障转移过程中的应用一致性
2. 如何测试 Azure Site Recovery 部署?
在生产网络上为所有受保护的 VM 运行灾难恢复演练。
借助灾难恢复演练,可以测试公司在不影响生产服务的情况下从灾难中恢复的能力。
生成业务连续性和灾难恢复(BCDR 计划)后,系统会要求你浏览在不中断实时服务的情况下测试系统的选项。你想要了解有关恢复演练的详细信息,以及如何验证 Azure Site Recovery 解决方案已设置并正常运行。
在此单元中,你将了解恢复时间和恢复点目标。你将了解如何使用恢复演练来测试 Azure Site Recovery 是否已正确配置以满足这些目标。
灾难恢复演练
借助 Azure Site Recovery,可以在不影响现有实时环境的情况下执行完整的灾难恢复测试。恢复计划创建于 Site Recovery 中,支持恢复任务、围绕其依赖关系(例如需要 Active Directory 或 DNS 才能正常运行)的特定于模型的应用程序的自动化。借助恢复计划,还可以测试灾难恢复。
在 Azure 门户上创建恢复计划后,可以执行该计划以进行测试。按照以下步骤操作:
在 Azure 门户的“Site Recovery”部分中,选择“恢复计划”>“恢复计划名称”>“测试故障转移”。
从提供的选项中选择恢复点。选项包括“最新处理”,这是由 Site Recovery 处理的最新恢复点。
选择将创建虚拟机的 Azure 虚拟网络。从实时环境使用独立网络,以防止对生产环境造成任何影响。
可以在“作业”选项卡和 Site Recovery 仪表板中跟踪进度。
监视测试恢复
使用 Site Recovery 仪表板监视恢复操作,包括在测试环境下启动的恢复演练。在恢复服务保管库中,单击“概述”可访问仪表板。然后会显示选项卡,以监视 Site Recovery 和备份操作。
在仪表板中,可以监视复制的项和测试故障转移。两个类别下的每个复制的项都设置为特定状态,以便对比查看正常运行的项和有问题的项。请看下图。

(1) 备份和站点恢复:在“备份”或 Site Recovery 仪表板之间切换。在此示例中,你位于 Site Recovery 选项卡上。
(2) 复制的项 - 正常运行:复制正常运行,无警告。“警告”表示检测到一个或多个可能影响复制的问题。“严重”表示已识别出一个或多个严重的复制错误。
(3) 故障转移测试成功 - 建议测试:由于已启用 Site Recovery 保护,特定计算机尚未进行故障转移。“已成功执行”表示已成功复制一个或多个计算机。“不适用”表示计算机当前不符合测试故障转移的条件。
(4) 配置问题 - 缺少配置:缺少必要的设置。“缺少资源”表示指定的资源未找到或不可用。例如,已删除的资源(例如虚拟网络)。“订阅配额”显示可供订阅使用的资源量,以及是否有足够资源量进行故障转移。“软件更新”显示新软件更新的可用性以及有关过期软件的信息。
(5) 错误摘要:查看此处提供的便捷错误摘要,从而快速识别环境中的任何问题。
(6) 基础结构视图:查看复制基础结构的可视化以及运行状况。
(7) 恢复计划:查看适用于基础结构的恢复计划。
(8) 作业 - 过去 24 小时:查看正在进行、正在等待或已失败的任何作业的状态。
知识检查
1. 以下哪一项是恢复时间目标 (RTO) 的正确含义?
灾难发生时的最大数据丢失量的度量值
2. 监视通过恢复服务保管库的恢复时,在 Site Recovery 仪表板上查看以下哪些统计信息?

Hyper-V 到 Azure 体系结构(使用 VMM)

复制过程


物理机到 Azure 体系结构

物理机到 Azure 的复制过程

从 Azure 进行 VMware 故障回复


