处理服务器制冷系统的故障
服务器制冷系统发生故障时,最重要的是迅速做出决定,并采取行动,正确的行动将让系统正常运行的时间更长,并防止再发生更严重的故障。下面这些指导方针在发生制冷系统故障时可以参考:
1、了解谁是维修人员,以及如何让他尽快抵达现场。
第一个电话应该打给HVAC工程师,尽可能详细描述问题,这样有助于工程师判断是否需要带零部件,在故障发生的第一时间,必须分秒必争。
2、了解并预测如果制冷设备发生故障将会产生什么影响
例如,在机房温度上升到临界值(>120℉)之前,服务器可以撑多久,这样可以算出留给维修人员的最大时间,以及是否需要启动备用系统。
3、与相关公司就关键环境签署服务水平协议
如果没有签,最好准备一套便携式制冷系统。例如,TrippLite的SRCOOL12K就是专门为紧急制冷而设计的,它可以提供大约12KBTU制冷量,有些地方紧急制冷设备非常昂贵,可以短时间租用。如果机房温度达到临界值之前只有几小时的时间,你可能将要面临财政上的损失。
4、关掉非必需的服务器
开发服务器通常是用电大户,在生产期间它们无需运行,还有测试服务器,以及所有非必需的服务器都应该统统关掉。
5、如果机房温度上升到快达到临界值时,最好打开门窗,总之想法降低机房的温度即可,如果户外温度比室内温度要低,可以使用风扇将热空气吹出去。
6、最后一条是处理制冷系统故障时最重要的一条:确保提前做好所有数据的备份工作。
如果提前做好了制冷系统故障处理应急预案,当真正的故障发生时将会发挥巨大的作用。如果你知道你的服务器等不到故障解除就要关掉,最好提前启动远程备用数据中心,并做好转移的准备。企业的应急计划应保证任何情况下业务的正常运转,即使是非常紧急的情况也应该如此。此外,还应该制定灾难恢复计划,在突发事件等紧急情况下,可以有序地将整个数据中心上的业务转移到备用数据中心。