亚马逊AWS官方博客

基于CloudEndure的新一代云上一键灾备解决方案与最佳实践

背景介绍 – 传统灾备的三个维度

在现代企业的IT运营中,灾备的价值正在与日俱增。客户数据中心故障、服务器硬件损坏,网络攻击,或者地震火灾等事件不仅会引起客户的产线停摆、业务中断,还会造成数据丢失、影响客户商业声誉;对于涉及公共事业服务的企业或者上市公司,如果对灾难事件处理不善甚至还有可能造成社会事件。

为了保障关键业务的持续运营并满足与业务部门协定的服务等级协议,很多客户都需要建立灾备系统或者跨地域的容灾中心,但传统的灾备系统需要投入一套昂贵的重复 IT 资源,包括软件、计算、存储、网络等。异地容灾中心还需要单独建立容灾机房,为了保障容灾机房在灾难的情况下能顺利接管业务,还需要配备相应的技术人员保障容灾机房的运行。此外,灾备使用的技术栈与灾备系统范围也与灾难恢复难度、效率、实施和运维成本密切相关。

 

如果我们将以上三个灾备的维度及其关系加以归纳,将得到下图

这三个维度关系紧密且互相影响,在传统灾备方案中,客户常常不得不在其中进行取舍

  • 比如客户要获得灾备切换的高效与演练不中断复制的灾备技术方案,则需要投入可观的成本购买成对的具备此功能的中高端存储解决方案。
  • 如果客户需要保障SLA并且不打算投入太多资金在灾备构建上,则必然需要对灾备系统的范围进行激进的压缩限制并舍弃某些提升灾备深度的高阶技术。
  • 类似的,对成本与灾备覆盖度的追求需要建立在对SLA进行妥协的基础上。

步入云时代后,灾备的方式将获得全面的革新;充分利用云上诸如按用量计费,上至计算下至存储的全栈弹性能力,全套的自动化辅助服务等特性,将成为衔接三个维度至关重要的“拼图”,为灾备领域开启全新的篇章。

 

云上灾备的关键要素与技术指引

使用Amazon EBS诠释云上灾备的守夜灯模式

亚马逊云科技所推崇的云上守夜灯模式的主旨是在大部分时间使用最低成本的资源承载灾备复制,而仅在需要开启灾备系统时利用云上的弹性特性将系统快速恢复至提供完全生产能力的资源配置状态。

为了进行更深入的解读,我们不妨回顾一下灾备端的数据在整体灾备中所处的角色,其通常由以下两个角色组成,这在ISV数据库厂商的复制方案里尤为常见:

  1. 持续接收从生产传输过来的数据增量
  2. 在演练/切换时承载灾备系统的数据访问

同一时间同一数据载体只能担任其中一个角色,如下图所示

在这种传统复制场景中,由于目标端平时只承载磁盘写入,利用Amazon EBS 可以在复制“目标系统“阶段配置最低满足写入性能要求的磁盘类型 (如st1/sc1),而在演练开始(2)以后使用 EBS 弹性类型修改特性动态改变磁盘类型至高性能类型磁盘(如gp3),以达到弹性降本的要求。

不止于此,利用Amazon EBS 的快照特性在灾备演练时将两个角色剥离开来,从而在保留弹性成本降低的前提下实现不中断的演练特性。

 

而克隆出来的系统在灾备演练完成后可以进行完全的清理,客户只需为其演练期间的成本付费。

Amazon CloudEndure 产品便是这个思想的最好诠释者。

云上灾备的明星产品CloudEndure

CloudEndure Disaster Recovery 可以通过快速而可靠地将物理机、虚拟机和基于云的主机恢复到 Amazon云区域,能最大限度地帮助客户缩短停机时间并减少业务中断损失,同时显著降低灾难恢复基础设施的成本。CloudEndure Disaster Recovery 会将您的机器(包括操作系统、系统状态配置、数据库、应用程序和文件)持续复制到目标 AWS 账户和指定区域的低成本暂存区。当发生灾难时,您可以指示 CloudEndure Disaster Recovery 在数分钟内自动启动数千台处于完全预置状态的机器,只有在实际的容灾切换或演习中,您才需要为启动的预置工作负载付费。

CloudEndure Disaster Recovery支持多种容灾需求:

    • 本地数据中心到AWS区域的容灾
    • 其他公有云到AWS区域的容灾
    • AWS不同区域之间的容灾

CloudEndure Disaster Recovery方案的主要特点:

  • 操作简单,自动化程度高,降低了容灾的复杂度
  • 广泛的适用性,可以支持物理主机、虚机和云主机,以及各类企业软件和操作系统
  • 支持秒级的恢复点目标 (RPO)和分钟级恢复时间目标 (RTO),降低业务中断的损失
  • 云上基础设施高可靠,确保容灾切换时能及时接管业务运行
  • 数据复制时占用云端的资源少,云上资源按需使用,有效降低容灾方案的成本
  • 演练不中断复制

CloudEndure Disaster Recovery方案架构:

CloudEndure 提供了强大与丰富的灾备恢复能力,符合其云上灾备明星产品的称号。但是如果需要完美衔接我们在上面提到的三个维度,往往在实际整体灾备方案中,我们还需要引入更多的技术方案。如果把灾备比喻为一场电影,那么除了主角,我们还需要配角,导演以及整个剧组的支持。

拥抱多元,追求极致

在某些场景下,相对于CloudEndure,存在更加有利于降低成本的复制方案:

  • 比如源端磁盘体量巨大而实际使用率很小,那么使用CloudEndure并不是成本最优的,使用基于文件系统的复制或者数据库复制是成本更优的选择。
  • 如果数据库磁盘写入量巨大,使用CloudEndure将对承载复制流量的带宽产生巨大考验,而此时引入数据库复制技术能够有效降低写放大率,缓解整体带宽需求。

对于某些对SLA要求不高的灾备场景,选择备份复制也将是一个能够帮助降低总体成本的有效手段。

不过我们坚定地认为,最具竞争力的云上灾备解决方案必然是以CloudEndure产品为核心的灾备框架基础上引入多元的灾备技术,其结果是找到一个在满足客户SLA要求与总成本支出之间寻求平衡的最优解。

当然随着更多不同复制技术的引入,无疑将加深灾备方案的深度这一维度,并对灾备效率产生影响。深度与效率的博弈其根本原因在于“人工”这一因素,这体现在使用“人工”来执行大量繁复的流程。然而,即使是一个训练有素的运维工程师在独自面对规模庞大、技术方案多样的灾备场景时也会感到束手无策,而构建一个能够支持如此体量灾备场景的团队对运维成本却并不友好(请参考灾备的三个维度)。与此同时,深度带来的演练难度与运维成本也不可避免地成为了企业进行周期性大规模灾备演练的阻力,如果方案本身不具备不中断复制的演练能力,无疑将更增强这一阻力。

更多元的技术/更广的灾备范围→增加的灾备深度→更低的效率→更少的演练→更多的不确定性,这不是一个良性的演进。墨菲定律告诉我们,不好的事情总会发生,其于灾备,往往意味着:没有经受检验的灾备恢复流程会在真实灾备切换发生时将所有问题暴露出来。而我们知道,比没有灾备更糟的情况是拥有一个无法在关键时刻成功运转的灾备系统。

在电影拍摄过程中,导演与编剧的重要性不亚于主角,同样的,在云上灾备场景中,我们拥有多种多样的云原生产品可以帮助我们对灾备流程进行自动化编排,如Amazon Step Functions、Amazon Systems Manager、Amazon Lambda等,借助这些服务,客户将有机会实现灾备演练/切换的自动化。

这种自动化能力体现在

  • 无缝的流程衔接 – 非阻塞的任务、无损的流程推进
  • 无处不在的并发处理 – 系统并发、流程并发、任务并发

正是自动化的引入,使得灾备方案兼顾深度和效率不再只能通过加大人力投入实现。如此一来,云上灾备就不用像传统灾备一样在三维度(深度,效率,降本)中做取舍,将云上灾备的优势发挥到极致。

 

新一代云上一键灾备(DR as Code)解决方案

方案介绍

亚马逊专业服务团队为企业客户量身打造了以CloudEndure产品为核心的新一代云上一键灾备(DR as Code)解决方案,这是一种集所有要素与技术于一身的最佳实践。

其中

  • Staging区域: 遵循守夜灯模式设计,使用最小资源承载复制需求,演练不影响复制
  • DR区域平时不产生费用,只在演练/切换时使用,Staging区域完整克隆出来,使用完毕后一键清理
  • DR as Code: 负责提供一键灾备演练/切换服务,使用Amazon Step Functions提供高度可视化可追溯流程;极大降低演练成本与问题诊断成本

成本对比

在以CloudEndure产品为核心的灾备框架基础上打造的新一代云上一键灾备(DR as Code)解决方案往往会比传统的数据中心容灾方案有很大的总体拥有成本(TCO)节省。

总结来说,节省主要来自于几个方面

  • 首先,该方案平时无需一比一配置主机,只需要启动很小的实例资源确保数据的实时备份,便在业务中断时可以实现分钟级的RTO
  • 其次,用户不用劳心劳力的寻找并管理远程的数据中心以放置灾备设备,大大减少运营投入。与此同时,不间断备份的能力,按需启动的容灾演练环境,也使得用户能够在很少的投入下在CloudEndure的灾备方案中多做演练测试,确保容灾系统的可靠性;
  • 再次,由于底层数据块的连续复制和上层操作系统版本和应用类型无关,大大增强了兼容性,从而可以实现秒级别的RPO,减少业务中断造成的损失;
  • 最后,简单直接的许可证制度(按照被灾备的机器数量收费),和备份数据大小、来源无关,让客户可以放心使用,无需担忧不可预测的额外成本。

在亚马逊云科技为一家汽车制造业用户实施的以CloudEndure为核心的灾备项目中,相较于用户传统的数据中心灾备方案,即便不考虑其中需要投入的运维资源、演练人力资源,3年资源TCO的节省也达到了47%,即使加入了一键灾备方案的实施成本,客户仍然能够获得31%的3年总体TCO节省。

不仅仅是灾备

一键灾备方案的核心价值是使客户高效获得一套完整生产系统克隆的能力,这种即开即用的能力可以被应用到更多场景,从而获得超出灾备范畴之外的价值:

 

 

客户可以通过一键的方式选择将系统恢复到不同的目标区域,而同时赋予该系统其他职能,比如作为系统的大版本升级的验证环境、压力测试环境等等;在使用完成以后一键清理以停止资源计费;这也是云上弹性,即开即用优势的完全体现。

一“键”之遥的上云

在企业上云路线图中,无论是云原生路线还是云迁移路线,都将遵照循序渐进的策略,由于CloudEndure、云上按需订阅模式与特有的守夜灯灾备模式的存在,在云上构建灾备有着天然的成本优势,其能够作为在建立基础阶段的一个很好切入点,帮助企业在云上获得容灾能力的同时降本增效。

从数字化转型路线上来看,企业也可以将云上灾备作为全面入云迁移的一个前置项目进行规划,从而在数字化转型的不同阶段获得不同的价值,并且使得投入产出最大化。与此同时,具备一键灾备能力也几乎等同于具备一键上云的能力,换句话说,选择云上一键灾备方案,企业在做出上云决定之前就已经完成了主要的准备工作。

 

总结

在以上章节里,我们介绍了云上灾备的几个关键要素与技术指引,客户可以根据指引围绕CloudEndure等云原生产品实现自己的灾备场景,并从中获得在传统灾备场景中无法获得的价值,并为企业的健康运转打下坚实基础。

如果客户期望体验以CloudEndure产品为核心的灾备框架基础上打造的新一代云上一键灾备(DR as Code)解决方案,可以联系亚马逊云服务销售代表获得详情。

 

本篇作者

刘斐文

亚马逊云科技 ProServe 团队SAP顾问,目前就职于亚马逊云科技专业咨询服务部门,专注于企业关键应用(如SAP系统)的云上架构规划设计、最佳实践与落地实施,负责SAP as Code与DR as Code方案的方向规划、设计研发与交付。

毛弋川

亚马逊云科技云经济专家,专注于企业上云商业价值案例分析,云上财务管理咨询等领域。