如何有效防止数据中心系统宕机-数据中心专区

如何有效防止数据中心系统宕机

作者：幽云十八编辑：曾智强 2011-06-26 00:00 IT168网站原创

　　正确对待宕机事件

　　在鼎鼎大名的亚马逊云宕机事件发生时，我发现一个奇怪的现象，系统在试图自动修复的过程中自动关闭。在这些情况下，古怪问题和云的“自动修复”程序过载，最终导致系统宕机。在网络中的移动设备和节点越多，问题发生的频率也就越高。由于虚拟化、云和rouge IT，这要比以往管理更多的元素。即使宕机的比例保持不变，设备和系统宕机的次数也会增多。

　　从某种程度上说，问题产生的原因是由于缺乏规划，但这对IT来说是不公平的。在系统变得越来越慢或越来越贵的时候，你只有那些规划能做。虽然像NASA(其仍时不时发生宕机)之类的组织可以花大量的时间和金钱以确保“持续运转”，但世界上的其他企业或组织就没那么幸运了。拥有坚如磐石的IT是非常奢侈的，大多数企业都不愿意为此提供预算。

　　在某种程度上，对某些类似英雄的IT人员来说，是一个激动人心的时刻。系统由于一些不为人知的神秘原因宕机，只有一个人可以拯救公司!无论出于何种原因，程序员和管理员往往更趋向于故障排除以获得更多的奖励，而非建设一个更稳定的系统。毕竟，如果其永远不会宕机的话，那IT人员就不需要做什么事情，而事实是，频繁的IT故障将使其保持高收入。

　　当然，如果员工因为IT频繁故障而受到惩罚(例如，口头批判、罚款或被解雇)，他们是不会因为他们有能力解决问题而感到自豪的。尽管如此，但在另一方面，只有这样才能从错误中学习以防止犯错误。从系统宕机之中将会学到大量的知识。避免危险的一个方法是记录下过去的宕机应对策略，而不是思考将来宕机的解决方法。如果你观察一下除了IT之外的所有其他行业的宕机情况，你会发现，即使是机场安检也会出现纰漏。

　　宕机首先失去的是顾客满意度，无论是内在的客户业务还是外在的客户。IT部门总是在证明自己的内部业务时受到挑战，宕机只会让合作伙伴认为：IT是一个烧钱的黑盒子。但在过去的几年里，谷歌、亚马逊、Facebook以及其他的服务已经成为文化的一部分，我们已经看到，其可以使我们的生活越来越美好。

　　每当内部故障发生之后，企业都想知道IT部门到底怎么了。他们大多在想“这到底有多困难?”当然，他们很容易忘记他们想把定制的IT投入到每个系统的烦人要求。

　　外部客户正越老越厌烦重复宕机。客户的营业额是需要考虑的诸多因素之一。太多的问题让顾客离去在资产负债表上是一个巨大的可量化的风险。想想你每月的开支。他们对你的品牌的忠诚度可能已经接近于零，他们可能是由于没有更好的服务所以才选择了你。站在客户的角度想想，一旦IT中断，你就不能快速简单地获得你想要的，那么你就会非常生气然后考虑离开。大多数企业在客户忠诚度方面都做得很少，因此，在IT中断后，几乎没有客户会继续停留在此。

　　测试是宕机预防措施的一部分。我喜欢Netflix公司Chaos Monkey的方式，在系统中运行一些疯狂的脚本，直到系统某一部分故障为止。这有点极端，但宕机测试和规划的综合性能将会得到提高。我们不太可能重新设计或重建系统，那么通过脚本测试这是一个相当有用的方法。

第1页：宕机大多是人为因素造成的第2页：正确对待宕机事件第3页：确保IT人员应对宕机时的士气

关注我们