数据中心 频道

如何有效防止数据中心系统宕机

  正确对待宕机事件

  在鼎鼎大名的亚马逊云宕机事件发生时,我发现一个奇怪的现象,系统在试图自动修复的过程中自动关闭。在这些情况下,古怪问题和云的“自动修复”程序过载,最终导致系统宕机。在网络中的移动设备和节点越多,问题发生的频率也就越高。由于虚拟化、云和rouge IT,这要比以往管理更多的元素。即使宕机的比例保持不变,设备和系统宕机的次数也会增多。

  从某种程度上说,问题产生的原因是由于缺乏规划,但这对IT来说是不公平的。在系统变得越来越慢或越来越贵的时候,你只有那些规划能做。虽然像NASA(其仍时不时发生宕机)之类的组织可以花大量的时间和金钱以确保“持续运转”,但世界上的其他企业或组织就没那么幸运了。拥有坚如磐石的IT是非常奢侈的,大多数企业都不愿意为此提供预算。

  在某种程度上,对某些类似英雄的IT人员来说,是一个激动人心的时刻。系统由于一些不为人知的神秘原因宕机,只有一个人可以拯救公司!无论出于何种原因,程序员和管理员往往更趋向于故障排除以获得更多的奖励,而非建设一个更稳定的系统。毕竟,如果其永远不会宕机的话,那IT人员就不需要做什么事情,而事实是,频繁的IT故障将使其保持高收入。

  当然,如果员工因为IT频繁故障而受到惩罚(例如,口头批判、罚款或被解雇),他们是不会因为他们有能力解决问题而感到自豪的。尽管如此,但在另一方面,只有这样才能从错误中学习以防止犯错误。从系统宕机之中将会学到大量的知识。避免危险的一个方法是记录下过去的宕机应对策略,而不是思考将来宕机的解决方法。如果你观察一下除了IT之外的所有其他行业的宕机情况,你会发现,即使是机场安检也会出现纰漏。

  宕机首先失去的是顾客满意度,无论是内在的客户业务还是外在的客户。IT部门总是在证明自己的内部业务时受到挑战,宕机只会让合作伙伴认为:IT是一个烧钱的黑盒子。但在过去的几年里,谷歌、亚马逊、Facebook以及其他的服务已经成为文化的一部分,我们已经看到,其可以使我们的生活越来越美好。

  每当内部故障发生之后,企业都想知道IT部门到底怎么了。他们大多在想“这到底有多困难?”当然,他们很容易忘记他们想把定制的IT投入到每个系统的烦人要求。

  外部客户正越老越厌烦重复宕机。客户的营业额是需要考虑的诸多因素之一。太多的问题让顾客离去在资产负债表上是一个巨大的可量化的风险。想想你每月的开支。他们对你的品牌的忠诚度可能已经接近于零,他们可能是由于没有更好的服务所以才选择了你。站在客户的角度想想,一旦IT中断,你就不能快速简单地获得你想要的,那么你就会非常生气然后考虑离开。大多数企业在客户忠诚度方面都做得很少,因此,在IT中断后,几乎没有客户会继续停留在此。

  测试是宕机预防措施的一部分。我喜欢Netflix公司Chaos Monkey的方式,在系统中运行一些疯狂的脚本,直到系统某一部分故障为止。这有点极端,但宕机测试和规划的综合性能将会得到提高。我们不太可能重新设计或重建系统,那么通过脚本测试这是一个相当有用的方法。

0
相关文章