【IT168 应用】有规划的小破坏将可以酿成巨大的灾难性事情。这样的灾害性事件我们都可能会遇到,毕竟IT经理们没有什么不同。
我们都知道诸如南加州的地震、纽约市隧道里的火灾、佛罗里达州和路易斯安那州的飓风这些都属于大规模灾难。这些灾难性事件使得许多企业在灾后都必须制定灾后重建计划,甚至在许多情况下给企业造成了巨大的商业损失。尽管这些灾难事件都有着巨大的破坏力,但毕竟它们并不经常发生。让我们来看看这些真正的大的灾害性事件吧。
下面这些则属于妨碍我们业务上的小灾害。诸如电子邮件服务器的数据库损坏、订单处理应用程序运行失常、网络运行失常、公司的关键服务器遭到黑客入侵、公司雇员为泄愤任意窜改企业的数据。这些问题发生的可能性要比上述的那些大灾难要多得多。问题是我们当中有多少人曾考虑过如果上述这些所谓的“小灾害”发生在我们的数据中心,我们能做什么呢?
我们大家都曾思考过这些问题,并都有一些不步程度的解决方案。但我们的所谓的方案都不够充分。我们每个人都有大量的关于如何能够恢复正常运作的想法,但我们的这些想法都未曾涉及到如果我们重新恢复到正常运作之后,我们将如何继续得问题。问题是恰恰正是这种想法可以产生巨大影响。
事实上,电邮服务器运转的失常倒不是导致商业失败的原因。真正导致商业失败的原因是我们的客户和员工缺乏良好的沟通。电子邮件是我们的重要工具。没有它,我们显然处于不利地位。虽然我们不能想像我们的日常运作没有电子邮件的帮助会是怎样,但其实如果电子邮件真的无法使用,我们可能反而可以将损失减少到最低限度。
每一项灾害性事件都可能导致两方面的影响:
1、恢复进程
2、不存在的进程
恢复进程对IT专业人员来说通常都非常简单:恢复快照、恢复备份、根据储运损耗的情况联系供应商等。即使我们从来没有执行这样的补救措施,方案仍然是相当标准和固定的。我们甚至可以在许多情况下创造性的采取相关措施,毕竟我们有足够的经验来应对各种进程。
“不存在的进程”则要复杂得多。我们常常甚至从未启动过这一进程,因为我们认为恢复过程会很快自动运行,因此为什么要自找麻烦呢?这就是所谓的傲慢,而这恰恰是我们的灾难性的问题的开始。如果我们对“不存在的进程”有一个很好的处理计划,我们大概能够经受住所有风暴的考验。显然,我们需要花费大量的时间在这上面了。
运用设想进行难后恢复工作
要充分地做好各种灾害的准备,我们就必须考虑我们有可能遭遇的各种灾害的类型。我们可以通过如下这些步骤来进行:
设想能导致数据中心被破坏的最有可能的事件
确定这些事件对公司业务的影响
第1步:设想最有可能的灾难性事件
当然这些灾难性事件根据企业规模性质行业的不同差别很大,但也有许多相似之处。一般而言,我们可以想像关键应用程序出状况是最具破坏性的。在这项实验的研究过程中,我与我的同事考虑了可能的情景。我们很快设想了五种状态。前四中状态我们都有第一手的经验。也许你正经历这第1步,而处理这第1步最好的方法是运用过去的经验。您或您的工作人员有经验的设想将是非常有价值的。
不管你在这方面思考得多或者少,但都必须彻底的考虑到。你在之前预测和想象的越多,就越能掌握更多的资源以应对这些事件的发生。
第2步:确定这些事件对公司业务的影响程度
从高到低的列举出这些事件对公司业务的影响破坏程度以及从影响程度最高的事件开始,制定一套全面的恢复每个事件的计划。对公司业务的影响通常主要是以时间的长短来衡量的。如果电邮服务器仅失常了5分钟,其影响也就无关紧要。但是,如果电邮服务器持续数小时甚至数天出状况的话,对业务的影响则要大得多。做最好的希望,并提前为最坏的情况制定应急方案则是你工作的重中之重。
针对电子邮件运转失常的一项全面的灾后恢复计划必须考虑到所有在恢复后可能发生的事件,同时还必须要有足够的应变计划,来应对以防这些恢复计划出差错。
评估每种状况下对公司业务的影响,及时的对相关状况进行处理是必须的。并要特别关注于具有影响力的事件。
第3步:对业务影响的估计(从高到低的列举出这些事件对公司业务的影响破坏程度)
可以想像一些灾难情景不会对公司业务产生太大的影响或者不经常发生,所以也就不足以担心。但是,另一些情况会产生严重后果。要充分了解并掌握最有可能或最关键的情景,你还有很长的路要走。而这样的情况下,充分的设想就可以帮助你。长远来看,在许多情况下简单地设想一些状况会导致什么事情的发生,将在很大程度上帮助你。一些问题如果你曾考虑过,你很可能会再次考虑。