七、统计资料显示,数据中心将在未来的s年内由于错误的Epo导致发生宕机
紧急断电系统(Epo,经常被称成为数据中心的致命点。对于数据中心经理来说,最可,怕的票梦就是发生EPO的跳闸,无论其是人工的还是自动的,因为立即切断计算机的供电对硬件和应用软件极其有害。对于配备了最好的设备和最高冗余水平的数据中心来说,只要紧急断电系统被启动,整个中心就会在约15之内停止运转。尽管这对数据中心的冲击很大,但根据相关法规的规定,在有些情况下还是不可避免的。
在多数情况下,EPO的错误配置很容易解决,由此产生的对数据中心的冲击是可以避免的。但是,很多数据中心操作人员不了解这些系统是如何工作的,对故障和自动跳闸也不敏感。部分业内数据显示,数据中心大概每5年经历一次故障性跳闸。对于任何希望达到99?999%可用性(5个9)的数据中心,一次EPO错误就会使实现这一目标的所有希望付之一炬,尽管保持的无错误纪录是那样完美。
八、系统极有可能在状态变化过程(例如维护)中发生故障
系统发生故障的时间和导致发生故障的事件极有可能是物理学定律和人类行为规律两者的组合。例如,灯泡极有可能在打开时发生故障。这是因为电通过灯丝的突然闪现导致温度的迅速变化,温度的突然升高使灯丝材料热扩张,最终导致断裂。无论是热冲击引发故障,还是灯泡已经损坏,确定是否将要发生故障的惟一办法就是便系统投入运行。
各种数据中心系统也是如此。电源电子装置,例如UPS设备中采用的IGBT,也会在发生热冲击时显示类似的故障模式。一个简单的预防措施就是:在第一次采用电源电子装置时,该装置不要连接关键负载。
产生这种现象的第二个也是比较重要的一个原因是人的行为。系统经常会在状态变更之后出现故障,这是因为系统没有正确地返回运行状态。比较常见的例子是打开一个断路器,在一个下行设备(例如发电机)上进行检查维护工作,工作完成后,技术人员忘记关闭该上行断路器,这时在供电系统某个环节发生了故障,当发电机启动时,负载因没有从发电机那里获得能源,因此负载中断。用什么解决方法呢?答案是在维修任一个子系统之后,必须认真进行系统测试,确保一切正常。
解密数据中心10个毋庸置疑的事实
0
相关文章