容灾备份是一个涉及信息安全和业务连续性管理的关键领域,通常包括两个主要方面:
容灾:其目标是确保在灾难发生时,信息系统能够持续稳定地运行,帮助企业维持业务的连续性。
备份:则侧重于应对灾难带来的数据丢失问题,确保在意外发生后能够恢复丢失的数据。
在容灾备份一体化系统诞生之前,容灾与备份是两个独立的系统。如今,容灾备份产品的核心目标是帮助企业应对多种类型的灾难,无论是人为错误、软件故障、病毒攻击等“软性”灾难,还是硬件故障、自然灾害等“硬性”灾难。
根据保护的层次,容灾系统可分为不同的级别:
1. 数据级容灾
数据级容灾主要通过在不同地点建立异地容灾中心,进行数据的远程备份。灾难发生时,最重要的是保证原始数据不丢失或受到。在这个层次的容灾中,灾难发生时,应用系统会中断。数据级容灾的恢复速度相对较慢,但成本较低,且实施相对简便。
2. 应用级容灾
应用级容灾则在数据级容灾的基础上,通过在备份站点部署与主站相同的应用系统,并采用同步或异步数据复制技术,确保关键应用能够在规定的时间内恢复运行。这样可以最大限度减少灾难带来的业务中断,使得系统在用户看来几乎没有感知到灾难的发生。应用级容灾不仅涉及数据的传输,还依赖于多种软件工具的支持,确保灾难发生时,系统能够迅速切换,维持业务连续性。
3. 业务级容灾
业务级容灾是最全面的灾难恢复方案,除了涵盖必要的IT技术外,还包括对所有基础设施的备份。例如,在发生大规模灾难时,除了数据和应用需要恢复外,企业还需要一个可用的工作场所继续运营。这类方案确保即使灾难影响到办公地点等非IT设施,业务依然能够继续。
灾难恢复的目标通常通过以下两个关键指标来衡量:
RPO (数据恢复点目标):指的是在灾难发生时,能够接受的数据丢失量。它描述了从业务中断到恢复时,能够接受数据更新的最大间隔。例如,RPO可以表示为“上次备份的数据”或“最近一次交易的数据”。
RTO (恢复时间目标):指的是从灾难发生到业务恢复的时间跨度,决定了企业在遭遇灾难后,能接受的最长停机时间。
这两个指标通常是根据业务的风险分析和影响评估来确定的,不同企业、不同业务的需求可能存在较大差异。RPO侧重于数据丢失的容忍度,而RTO则着眼于服务恢复的时效性。
容灾与容错的区别
容灾(Disaster Tolerance)指的是在灾难发生时,通过冗余手段保证生产系统能够持续运行,最大程度减少数据丢失。例如,飞机上有两个发动机,主发动机发生故障时,备用发动机立即接管,确保飞行不中断。
容错(Fault Tolerance)则强调在系统出现故障时,确保系统继续运作,虽然故障会影响部分性能,但系统依然可用。例如,飞机有四个引擎,其中一个损坏时,剩下的三个引擎仍然能支撑飞行;汽车如果一个轮胎爆胎,剩下的三个轮胎仍然可以行驶。
容灾的层级体系
国际标准SHARE78对容灾系统的定义划分了七个层级,从最基础的本地备份到能够实现零数据丢失的高级容灾系统。每个层级对应不同的技术和实施复杂度,用户在选择容灾方案时需要根据自己的需求、预算以及风险承受能力来做出合理选择。
0级:无异地备份
0级容灾方案仅在本地进行备份,不具备异地备份,且没有灾难恢复计划。这是最基础、成本最低的方案,但灾难发生时,所有数据将丢失,业务无法恢复。
1级:异地备份
1级容灾方案将数据备份到异地,但备份数据无法立即使用,且没有灾难恢复计划。灾难发生后,用户需要手动从异地获取备份数据并恢复。虽然成本较低,但恢复速度较慢,且难以管理。
2级:热备份站点
2级容灾方案在异地设置热备份站点,能够实时备份数据,灾难发生后可通过热备份主机系统快速恢复。虽然恢复速度加快,但仍可能出现几天或几周的数据丢失。
3级:在线数据恢复
3级容灾方案通过网络将数据实时备份到异地,灾难发生时,通过网络可以迅速恢复数据。该方案依赖高带宽网络,能够减少恢复时间,但成本相对较高。
:定时数据备份
容灾方案在第3级的基础上,使用自动化备份系统定时备份数据,并通过备份中心恢复关键业务。虽然恢复时间较短,但仍存在一定的数据丢失风险。
5级:实时数据备份
5级容灾方案通过数据镜像和复制技术,实现数据在两个站点之间的实时同步。这一方案可以确保灾难发生时,数据丢失最小,恢复时间缩短至分钟甚至秒级,但其技术要求和成本都较高。
:零数据丢失
容灾方案是最先进的灾难恢复技术,它确保数据在灾难发生时完全同步到异地,完全避免数据丢失。虽然恢复速度极快,但对硬件、网络和存储系统的要求非常高,因此成本极为昂贵。这个方案通常被资金雄厚的大型企业或电信级公司所采用。
在选择适合自己企业的容灾方案时,必须考虑自身的业务需求、容忍度和预算限制,从而选择最合适的容灾级别。