如何有效防止数据中心系统宕机-数据中心专区

如何有效防止数据中心系统宕机

作者：幽云十八编辑：曾智强 2011-06-26 00:00 IT168网站原创

　　【IT168 应用】宕机将对现代化的企业造成严重的后果。挽回由宕机造成的收入损失和重建企业信誉将会非常困难，当然也不是不可能。虽然不能期望IT人员避开每次宕机事件，因为大多数系统宕机都是预防失败造成的。这就是为什么我们要必须了解数据中心宕机的后果以及IT人员减少宕机事件可采取的措施和步骤。

　　首先，必须区分是计划内的宕机还是计划外的宕机。这两种类型的宕机都是非常有压力的。如果是计划宕机，那就必须在预定时间内完成，但如果是计划外宕机，那就很糟糕了。计划外宕机对员工来说，是一个很好的学习解决问题的机会，因为现在拥有故障排除技能的技术人员越来越少。这或许应该归结为从个人PC上形成的自动修复心态和“重新启动”心态。

　　损失最大的是给客户造成的影响将会怎样以及客户对你的看法。考虑清楚是在白天进行系统维护还是晚上进行。您认为客户会更喜欢哪一个?

　　规划，具有优秀故障排除技能的人将记录是如何发现问题并怎样解决的，其意味着问题再次出现时，将更快地得到解决。

　　宕机大多是人为因素造成的

　　但很不幸的是，系统宕机的最大原因很大程度上是人为错误。很多时候，是因为没有遵循既定流程或没有通过全部流程。另一个原因可能是系统错误或未考虑到的模糊不清的设计缺陷。有时候，就像一个错字那么简单。

　　大多数IT人员都真诚地想把工作做好，并为之感到自豪，这就是为什么面对宕机会产生压力的原因。宕机造成的最直接的压力包括“战场环境”(通常在非工作时间)，每个人都试图找出原因。这种压力会反过来影响士气，尤其是运气不好的时候。随着系统的逐步稳定，情况也会变得越来越好。

　　业务中断对不同的行业会造成不同程度的影响，当然这其中会存在一定共性。业务中断可能导致公司销售停顿，从而给客户带来不好的体验。另一方面，制造业公司可能不得不停止生产，金融公司可能不得不支付诉讼罚款。

　　避免宕机最重要的两个措施就是规划和自动控制。当然，规划是整改以避免矛盾的非常好的方式。长期规划系统与应用程式设计，弹性冗余系统将发挥至关重要的作用。自动化将大大减少人为错误的几率。

　　正确对待宕机事件

　　在鼎鼎大名的亚马逊云宕机事件发生时，我发现一个奇怪的现象，系统在试图自动修复的过程中自动关闭。在这些情况下，古怪问题和云的“自动修复”程序过载，最终导致系统宕机。在网络中的移动设备和节点越多，问题发生的频率也就越高。由于虚拟化、云和rouge IT，这要比以往管理更多的元素。即使宕机的比例保持不变，设备和系统宕机的次数也会增多。

　　从某种程度上说，问题产生的原因是由于缺乏规划，但这对IT来说是不公平的。在系统变得越来越慢或越来越贵的时候，你只有那些规划能做。虽然像NASA(其仍时不时发生宕机)之类的组织可以花大量的时间和金钱以确保“持续运转”，但世界上的其他企业或组织就没那么幸运了。拥有坚如磐石的IT是非常奢侈的，大多数企业都不愿意为此提供预算。

　　在某种程度上，对某些类似英雄的IT人员来说，是一个激动人心的时刻。系统由于一些不为人知的神秘原因宕机，只有一个人可以拯救公司!无论出于何种原因，程序员和管理员往往更趋向于故障排除以获得更多的奖励，而非建设一个更稳定的系统。毕竟，如果其永远不会宕机的话，那IT人员就不需要做什么事情，而事实是，频繁的IT故障将使其保持高收入。

　　当然，如果员工因为IT频繁故障而受到惩罚(例如，口头批判、罚款或被解雇)，他们是不会因为他们有能力解决问题而感到自豪的。尽管如此，但在另一方面，只有这样才能从错误中学习以防止犯错误。从系统宕机之中将会学到大量的知识。避免危险的一个方法是记录下过去的宕机应对策略，而不是思考将来宕机的解决方法。如果你观察一下除了IT之外的所有其他行业的宕机情况，你会发现，即使是机场安检也会出现纰漏。

　　宕机首先失去的是顾客满意度，无论是内在的客户业务还是外在的客户。IT部门总是在证明自己的内部业务时受到挑战，宕机只会让合作伙伴认为：IT是一个烧钱的黑盒子。但在过去的几年里，谷歌、亚马逊、Facebook以及其他的服务已经成为文化的一部分，我们已经看到，其可以使我们的生活越来越美好。

　　每当内部故障发生之后，企业都想知道IT部门到底怎么了。他们大多在想“这到底有多困难?”当然，他们很容易忘记他们想把定制的IT投入到每个系统的烦人要求。

　　外部客户正越老越厌烦重复宕机。客户的营业额是需要考虑的诸多因素之一。太多的问题让顾客离去在资产负债表上是一个巨大的可量化的风险。想想你每月的开支。他们对你的品牌的忠诚度可能已经接近于零，他们可能是由于没有更好的服务所以才选择了你。站在客户的角度想想，一旦IT中断，你就不能快速简单地获得你想要的，那么你就会非常生气然后考虑离开。大多数企业在客户忠诚度方面都做得很少，因此，在IT中断后，几乎没有客户会继续停留在此。

　　测试是宕机预防措施的一部分。我喜欢Netflix公司Chaos Monkey的方式，在系统中运行一些疯狂的脚本，直到系统某一部分故障为止。这有点极端，但宕机测试和规划的综合性能将会得到提高。我们不太可能重新设计或重建系统，那么通过脚本测试这是一个相当有用的方法。

　　确保IT人员应对宕机时的士气

　　在过去的几年里，系统宕机的首要原因已涉及到硬件故障。无论是服务器硬件或基础设施(数据中心电力或散热)，硬件故障造成的系统宕机比人为错误和软件错误造成的要多得多。

　　宕机让士气大受影响。宕机时候的非常好的做法是支持IT人员的工作，或与供应商联系，确定问题并恢复服务。

　　指责和埋怨应等到危机解除之后。当工作人员找到并试图解决问题时，管理层绝不能掐住他们的脖子说：“这都是你的错!为什么系统不稳定?”那将促使人们到达爆发点。在服务和系统恢复之后，开会讨论一下原因、解决方法和决议。

　　诊断和分析故障的原因往往比日常运维的压力更大。管理，其看起来可能更像是IT人们要呆到很晚以修复某些东西，但是，这种情况在短期内就会发生很多次，你应该理解IT人员疲惫不堪的身体和情绪。在一段时间之后可能会解决更多的问题。

　　管理部门应该认识到并公开表扬IT工作人员付出的额外努力和时间。给他们调休(例如，第二天可以晚到)以补偿他们额外的加班，对待他们应该更人性化一些。

　　规划将有助于避免宕机。例如，适当更改一下管理程序，如果使用得当，计划宕机与意外宕机将有巨大的差异。

　　至于策略和技能，你应该从头到脚思虑清楚。跳出传统的局限，并拿出解决之道，以尽快解决故障。有时，修复更像是“查漏补缺”，这很好，只要你既定的维护措施有益于长期规划。

　　处理糟糕情况的非常好的解决方案

　　必须明白，在防止数据中心宕机方面并没有绝对的方法。太多的人、太多的环节以及不断发现的新问题，企业不可能掌控全部。因此，尽管防止系统宕机是一件很重要的工作，但宕机(不是如果)发生后，清晰的解决步骤和方法同样重要。从宕机之中可以学到很多知识，明智的企业可从中找到许多提高和改进的方法。

关注我们