确保IT人员应对宕机时的士气
在过去的几年里,系统宕机的首要原因已涉及到硬件故障。无论是服务器硬件或基础设施(数据中心电力或散热),硬件故障造成的系统宕机比人为错误和软件错误造成的要多得多。
宕机让士气大受影响。宕机时候的非常好的做法是支持IT人员的工作,或与供应商联系,确定问题并恢复服务。
指责和埋怨应等到危机解除之后。当工作人员找到并试图解决问题时,管理层绝不能掐住他们的脖子说:“这都是你的错!为什么系统不稳定?”那将促使人们到达爆发点。在服务和系统恢复之后,开会讨论一下原因、解决方法和决议。
诊断和分析故障的原因往往比日常运维的压力更大。管理,其看起来可能更像是IT人们要呆到很晚以修复某些东西,但是,这种情况在短期内就会发生很多次,你应该理解IT人员疲惫不堪的身体和情绪。在一段时间之后可能会解决更多的问题。
管理部门应该认识到并公开表扬IT工作人员付出的额外努力和时间。给他们调休(例如,第二天可以晚到)以补偿他们额外的加班,对待他们应该更人性化一些。
规划将有助于避免宕机。例如,适当更改一下管理程序,如果使用得当,计划宕机与意外宕机将有巨大的差异。
至于策略和技能,你应该从头到脚思虑清楚。跳出传统的局限,并拿出解决之道,以尽快解决故障。有时,修复更像是“查漏补缺”,这很好,只要你既定的维护措施有益于长期规划。
处理糟糕情况的非常好的解决方案
必须明白,在防止数据中心宕机方面并没有绝对的方法。太多的人、太多的环节以及不断发现的新问题,企业不可能掌控全部。因此,尽管防止系统宕机是一件很重要的工作,但宕机(不是如果)发生后,清晰的解决步骤和方法同样重要。从宕机之中可以学到很多知识,明智的企业可从中找到许多提高和改进的方法。