5. 电力系统选型,可靠性和维护便利性两手都要硬
人们经常使用可靠性和可用性这两个词语,但实际上它们表示的含义却有所不同。可靠性是指衡量系统发生故障之间的平均时间,也叫做MTBF(Mean Time Between Failure),另一个是指恢复系统所需要的时间,也叫做MTTR(Mean Time Between Failure)。对于可用性有如下公式:可用性= MTBF / (MTBF + MTTR)
服务器、交换机或电源可能十分可靠,很少出现停机故障,但它们可能并不具备高可用性,因为它们有较高的平均修复时间(MTTR),但IT部门在评估系统的可用性时常常忽略修复时间。
比如,假设公司要决定在总部是采用普通的荧光灯管还是更尖端的LED灯管。LED的可靠性更高,因为很少出现机械故障,但出现问题时,如果本地库房或当地经销商处没有备用的LED灯管,那么替换出问题的灯管可能是一个非常耗时的过程。另一方面,荧光灯管的平均无故障时间大约6000小时,可靠性差得多,但是要更换它们很迅速,价格也很低,因为它们是一种标准产品。同时考虑可靠性和平均修复时间,荧光灯管实际上可能比LED灯管提供更好的可用性。
同样的逻辑也适用于电力系统中的基础设施组件,原本设计不间断运行的系统,如果修复操作比较耗时,那么长远来看并不能提供高可用性。
推荐方法:评估电力系统组件时,企业应寻找可靠性高,且能快速修复的产品。尤其要仔细调查电力系统制造商如何快速有效地提高产品维修服务,如核实该制造商雇佣了多少服务工程师,他们驻守在哪里,当你的数据中心中断后,他们如何才能迅速抵达现场?是24*7小时支持吗?服务工程师对该制造商的产品了解得有多深入?如果他们不能解决问题,是否有其他办法?如果制造商不能在故障发生后快速地派遣经过严格培训和有准备的服务人员到场,即使是最精良和可靠的电力系统最终提供的可用性也穷得可怜。
企业还应该寻求具有冗余的和模块化设计的产品,如果一个模块失败,其它模块自动顶上,提高了系统的MTBF。此外,模块的更换也更容易,通常一两个技术人员就可以快速安装上,甚至不需要制造商的协助,因此MTTR就大大降低了,可用性就更好了。