【IT168 数据中心频道】当你不小心将两根网线插入错误的集线器中,一个大学网络将会崩溃。在不合时宜的时间进入数据中心将会导致雇员受伤。当雇员将数据中心恒温器由华氏改成摄氏度后,系统会因为过热而关机。
这些都是愚蠢的数据中心失误。在大量数据中心灾难中,只有少数灾难是由技术故障或自然灾害引起的,大部分灾难都是由于人为过失引发的。
据纽约国际正常运行时间协会(UI)调查显示,在当今困扰着数据中心的问题中,大约70%的问题是由人为推失误导致。UI副总裁Julian Kudritzki称,他们的团队分析了大约4500起数据中心事故,其中包括400起宕机事件。Kudritzki最近也公布了一套规范以保证数据中心业务可持续运作。
Kudritzki对于调查结果表示:“我并不感到惊讶。虽然操作管理极为脆弱,但是这也是避免出现宕机事故的主要办法。好的消息是管理员能够接受再培训。”
无论是由于疏忽、训练不足、终端用户干扰、资金紧缩,还是简单错误,人为错误是不可避免的。Pund–IT公司分析师Charles King称,这段时间以来,由于IT系统日益复杂,数据中心职员工作负担逐渐增加也随之带来许多问题,本该避免的一些小失误甚至也开始出现了。
是用户错误击垮了数据中心吗?看一下这些血淋淋的事故吧。
King说,“劳累过度加上繁琐的高难度工作任何时候都会引发非常糟糕的结果。”随着企业越来越依赖于技术实现业务目标,因此这些错误将变得越来越致命,代价越来越昂贵。
失误的技术员,错误的网线
让我们看一下这个案例。一所大学数据中心交换机发生了过载,原因就是因为IT人员错误地将两个网线插入到了下游端集线器上。学校安全分析师Jeramy Jay Bowers透露称,这一事故四年前发生在印第安纳波利斯的印第安纳大学医学院。
Bowers指出问题产生于不甚完美的网络设计。该事件发生时,Bowers正担任学院的系统工程师。学院的IT部门被分散在两个地点,其中一个机房在医学院大楼,另外一个是在邻近的大学医院内。Bowers说首先这并不是一个理想的配置。
他解释说,该部门使用的是紫色的光纤,光纤通过第一个建筑物的交换机到了第二个地点,又穿过了天花板,通过层层门禁到达了隔壁医院的行政区。由于该网线与位于医院IT房间的12端口交换机相连,因此员工可以轻松地断开医学院的网络,然后通过在墙上的插孔将其连接到医院网络上。
有一天,当Bowers下班后正在慢跑锻炼时,他的iPhone手机响了。电话那头告诉他,医学院服务器的交换机过载导致其所托管的所有服务被拒绝访问。
他解释称: “当有数据包通过时绿色指示灯会不停的闪烁。绿色灯闪亮时间比熄灭时间长表明数据包越来越多。
Bowers很快就开始通过电话排除故障。他能够确定医学院的网络没有变动。这时他想起了紫色的那根网线。他在电话里告诉他的同事拔掉它。拔掉后,交换机恢复至了正常状态。当插回去后,交换机就会再次过载。这证明这个问题在紫色网线的另一端,也就是在大学医院的那栋楼上。
原来,从事某个项目的一名IT人员通常通过卫星定位寻找大学医院的IT房间,这需要额外的连接。他将大学交换机上两根网线切换到了他添加至网络中的一个集成器上,以便他能附加额外设备,从而无意导致了堵塞。
Bowers称:“这样一来就形成了一个回路,数据在这个回路中循环发送。这最终导致医学院大楼内发生数据过载。”
Bowers称,目前大学内的网络和他初到这里工作时一样,所以这种网络设置在他脑子里已经根深蒂固,任何更多好的网络设计在他眼里毫无疑问都会带来问题。不过至少目前IT部门知道今后要避免这种情况发生:临时网线和临时技术员是一个糟糕的搭配。
Bowers称:“我们在此事件发生后并没有正式的从中总结经验教训。我们所做的只是轻描淡写的被告之不要‘再这么做’。”除了这一起事故外,还发生了一起用户无意中在医学院网络中建立了一个流氓无线接入点造成了交换机过载的事故。这两起事故让Bowers彻底明白了一个概念,那就是人为错误导致的问题比技术错误导致的问题要更多。