9.3.3. 运维管理要求
灾难恢复业务的特殊性为灾备中心的日常运营管理带来了与众不同的挑战,具体包括:
1. 7×24×365的要求
由于大多数灾难的发生是无法预知的,作为灾备中心必须能够提供7×24×365不间断的灾难恢复服务,确保灾难事件发生后有足够的能力支持业务恢复。如何能使灾备中心的工作人员时刻保持高度的责任心和敏感度去面对每一项日常工作,使企业的服务水平在一年的每分每秒都能保持同样的水平,这是灾备中心管理层所关注的一个主要问题。
2. “小概率、高风险”的管理要求
由于灾难事件的发生属于小概率事件,因而真正能够使用到灾备中心的概率很小。如何在平时几乎不使用的情况下,仅依靠日常的严格管理就能确保所有服务的可用性,则是灾备中心管理的另一个难点。
3. “演练为主,实操为辅”的日常管理要求
如前所述,灾备中心的启用本身就是一个小概率事件,兼之在业务连续管理中有一个重要的原则就是要对业务连续计划经常演练。因此,日常管理中应当经常采用各种各样的方式,使灾备中心的人员投入到不同的场景当中。通过这种经常性的演练,让他们熟悉每一项工作的步骤,而且能逐渐适应灾难场境中所带来的各项压力,确保当灾难真正来临时,灾备中心的人员均能按要求完成相关工作。
4. 工作重复性较强
由于灾备中心另一个重要的职责就是要确保放置在灾备中心的灾备系统平常的可用性。因此,灾备中心应习惯于制订详细的设备检查与维护工作计划,然后按每半个小时、1个小时或其他频率实施计划。
5. 质量控制难度较大
灾备中心归根到底就是通过日常严格的管理与训练有素的演练,在必要时提供灾难切换服务,能够满足RPO(灾难恢复时间点目标:主要指灾备系统可以恢复至灾难发生前的具体时间点)与RTO(灾难恢复时间目标:主要指利用灾备系统接管生产系统恢复运营所需要的时间)的要求。保证灾难恢复的有效性是一项非常专业的工作。
灾备中心的运营管理非常复杂,从日常的运维到灾难发生时的应急响应、恢复和回退,是一个专业的、持续运行的过程,如图9-1所示。
图9-1 灾备中心运维管理