【IT168 应用】宕机将对现代化的企业造成严重的后果。挽回由宕机造成的收入损失和重建企业信誉将会非常困难,当然也不是不可能。虽然不能期望IT人员避开每次宕机事件,因为大多数系统宕机都是预防失败造成的。这就是为什么我们要必须了解数据中心宕机的后果以及IT人员减少宕机事件可采取的措施和步骤。
首先,必须区分是计划内的宕机还是计划外的宕机。这两种类型的宕机都是非常有压力的。如果是计划宕机,那就必须在预定时间内完成,但如果是计划外宕机,那就很糟糕了。计划外宕机对员工来说,是一个很好的学习解决问题的机会,因为现在拥有故障排除技能的技术人员越来越少。这或许应该归结为从个人PC上形成的自动修复心态和“重新启动”心态。
损失最大的是给客户造成的影响将会怎样以及客户对你的看法。考虑清楚是在白天进行系统维护还是晚上进行。您认为客户会更喜欢哪一个?
规划,具有优秀故障排除技能的人将记录是如何发现问题并怎样解决的,其意味着问题再次出现时,将更快地得到解决。
宕机大多是人为因素造成的
但很不幸的是,系统宕机的最大原因很大程度上是人为错误。很多时候,是因为没有遵循既定流程或没有通过全部流程。另一个原因可能是系统错误或未考虑到的模糊不清的设计缺陷。有时候,就像一个错字那么简单。
大多数IT人员都真诚地想把工作做好,并为之感到自豪,这就是为什么面对宕机会产生压力的原因。宕机造成的最直接的压力包括“战场环境”(通常在非工作时间),每个人都试图找出原因。这种压力会反过来影响士气,尤其是运气不好的时候。随着系统的逐步稳定,情况也会变得越来越好。
业务中断对不同的行业会造成不同程度的影响,当然这其中会存在一定共性。业务中断可能导致公司销售停顿,从而给客户带来不好的体验。另一方面,制造业公司可能不得不停止生产,金融公司可能不得不支付诉讼罚款。
避免宕机最重要的两个措施就是规划和自动控制。当然,规划是整改以避免矛盾的非常好的方式。长期规划系统与应用程式设计,弹性冗余系统将发挥至关重要的作用。自动化将大大减少人为错误的几率。
正确对待宕机事件
在鼎鼎大名的亚马逊云宕机事件发生时,我发现一个奇怪的现象,系统在试图自动修复的过程中自动关闭。在这些情况下,古怪问题和云的“自动修复”程序过载,最终导致系统宕机。在网络中的移动设备和节点越多,问题发生的频率也就越高。由于虚拟化、云和rouge IT,这要比以往管理更多的元素。即使宕机的比例保持不变,设备和系统宕机的次数也会增多。
从某种程度上说,问题产生的原因是由于缺乏规划,但这对IT来说是不公平的。在系统变得越来越慢或越来越贵的时候,你只有那些规划能做。虽然像NASA(其仍时不时发生宕机)之类的组织可以花大量的时间和金钱以确保“持续运转”,但世界上的其他企业或组织就没那么幸运了。拥有坚如磐石的IT是非常奢侈的,大多数企业都不愿意为此提供预算。
在某种程度上,对某些类似英雄的IT人员来说,是一个激动人心的时刻。系统由于一些不为人知的神秘原因宕机,只有一个人可以拯救公司!无论出于何种原因,程序员和管理员往往更趋向于故障排除以获得更多的奖励,而非建设一个更稳定的系统。毕竟,如果其永远不会宕机的话,那IT人员就不需要做什么事情,而事实是,频繁的IT故障将使其保持高收入。
当然,如果员工因为IT频繁故障而受到惩罚(例如,口头批判、罚款或被解雇),他们是不会因为他们有能力解决问题而感到自豪的。尽管如此,但在另一方面,只有这样才能从错误中学习以防止犯错误。从系统宕机之中将会学到大量的知识。避免危险的一个方法是记录下过去的宕机应对策略,而不是思考将来宕机的解决方法。如果你观察一下除了IT之外的所有其他行业的宕机情况,你会发现,即使是机场安检也会出现纰漏。
宕机首先失去的是顾客满意度,无论是内在的客户业务还是外在的客户。IT部门总是在证明自己的内部业务时受到挑战,宕机只会让合作伙伴认为:IT是一个烧钱的黑盒子。但在过去的几年里,谷歌、亚马逊、Facebook以及其他的服务已经成为文化的一部分,我们已经看到,其可以使我们的生活越来越美好。
每当内部故障发生之后,企业都想知道IT部门到底怎么了。他们大多在想“这到底有多困难?”当然,他们很容易忘记他们想把定制的IT投入到每个系统的烦人要求。
外部客户正越老越厌烦重复宕机。客户的营业额是需要考虑的诸多因素之一。太多的问题让顾客离去在资产负债表上是一个巨大的可量化的风险。想想你每月的开支。他们对你的品牌的忠诚度可能已经接近于零,他们可能是由于没有更好的服务所以才选择了你。站在客户的角度想想,一旦IT中断,你就不能快速简单地获得你想要的,那么你就会非常生气然后考虑离开。大多数企业在客户忠诚度方面都做得很少,因此,在IT中断后,几乎没有客户会继续停留在此。
测试是宕机预防措施的一部分。我喜欢Netflix公司Chaos Monkey的方式,在系统中运行一些疯狂的脚本,直到系统某一部分故障为止。这有点极端,但宕机测试和规划的综合性能将会得到提高。我们不太可能重新设计或重建系统,那么通过脚本测试这是一个相当有用的方法。
确保IT人员应对宕机时的士气
在过去的几年里,系统宕机的首要原因已涉及到硬件故障。无论是服务器硬件或基础设施(数据中心电力或散热),硬件故障造成的系统宕机比人为错误和软件错误造成的要多得多。
宕机让士气大受影响。宕机时候的非常好的做法是支持IT人员的工作,或与供应商联系,确定问题并恢复服务。
指责和埋怨应等到危机解除之后。当工作人员找到并试图解决问题时,管理层绝不能掐住他们的脖子说:“这都是你的错!为什么系统不稳定?”那将促使人们到达爆发点。在服务和系统恢复之后,开会讨论一下原因、解决方法和决议。
诊断和分析故障的原因往往比日常运维的压力更大。管理,其看起来可能更像是IT人们要呆到很晚以修复某些东西,但是,这种情况在短期内就会发生很多次,你应该理解IT人员疲惫不堪的身体和情绪。在一段时间之后可能会解决更多的问题。
管理部门应该认识到并公开表扬IT工作人员付出的额外努力和时间。给他们调休(例如,第二天可以晚到)以补偿他们额外的加班,对待他们应该更人性化一些。
规划将有助于避免宕机。例如,适当更改一下管理程序,如果使用得当,计划宕机与意外宕机将有巨大的差异。
至于策略和技能,你应该从头到脚思虑清楚。跳出传统的局限,并拿出解决之道,以尽快解决故障。有时,修复更像是“查漏补缺”,这很好,只要你既定的维护措施有益于长期规划。
处理糟糕情况的非常好的解决方案
必须明白,在防止数据中心宕机方面并没有绝对的方法。太多的人、太多的环节以及不断发现的新问题,企业不可能掌控全部。因此,尽管防止系统宕机是一件很重要的工作,但宕机(不是如果)发生后,清晰的解决步骤和方法同样重要。从宕机之中可以学到很多知识,明智的企业可从中找到许多提高和改进的方法。