数据中心 频道

解密数据中心10个毋庸置疑的事实

  【IT168 数据中心频道】在任何数据中心的设计和建设过程中,有一些误解和基本事实是cEo和cIo们必须了解的。这些事实可能适用于您的数据中心,因此在规划和分配资源时应当认真考虑。误解包括业界很多最常见的数据中心设计错误。在制定有关数据中心以及为数据中心提供资源的承包商和生产商的能力预期时,需要考虑这些误解。

  一、ups成为数据中心供电系统的代名词

  UPS是为了解决供电系统存在的问题应运而生的,在漫长的发展历程中,叨?S设备的技术水平和功能在不断变化,当今UPS设备无论是在输出容量上,还是在基本性能、智能化管理、可靠性、可维护性和可管理性上,都获得了长足的发展。如今它已经不是一个简单的电网停电后可以继续维持向负载供电的设备,它还肩负着全面改善供电质量,并通过智能管理智能监控和网络通信实现对整体电力基础实施保护的任务,成为一个有强大管理功能的信息技术设备,己经完全融木企业信息系统,成为其中不可缺少的一部分。

  从应用的角度看,随着时间的推移,配置UPS的功能要求也在发生着明显的变化,如图1-3所示。

  功能1:市电掉电时,保护负载硬件设备。在UPS设备应用初期,大部分用户都首先意识到这一点。

  功能2:市电掉电时,保护负载设备运行的数据。这是应用UPS设备的主要目的之一,特别是随着互联网和电子商务的迅猛发展,用户意识到保护运行数据比保护网络设备更为重要。

  功能3:全球网络、全球通信、信息实时处理,以及365x24h的贸易,已经成为整个社会日常生活的准则。要求供电系统在市电正常和故障等各种情况下都要保证供电系统正常运行,即系统必须有很高的可用性,以确保数据中心业务的连续性。

  功能4:当IT技术发展和变革的周期小于设各的使用周期时,就对其基础设施提出了可扩展和适应性问题。用户在关注业务可用性的同时,开始关注系统对环境变化的适应能力。

  功能5从20世纪90年代中期开始变得愈来愈重要。随着信息技术的高速发展和网络时代的到来,对以UPS为核心的整个供电系统的可用性、可维护性、可管理性也提出了越来越高的要求。越来越多的厂商和用户己经形成这样的共识:在UPS各种性能指标基本满足计算机网络设备供电要求的情况下,真正能为客户带来价值的是系统的可用性。用户关心的重点开始从仅仅强调UPS本身由设计和制造决定的可靠性,转移到由整个供电系统方案设计和服务决定的可用性上来。

  功能6从20世纪90年代末期开始受到关注,特别是进入21世纪后,信息技术的高速发展和IT基础设施生命周期的缩短,可扩充性成为IT基础设施设计建造时必须考虑的最重要的因素之一。信息化发展到今天,网络基础设施在现代企业投资中所占比例越来越大,而决策者们的困惑也随之不断增加。在不少企业决策者的心目中,网络基础设施最好是一步到位,构建起来的系统不但要满足当前的业务需求,还要为将来的业务发展做好充足的准各,但结果却往往与预期大相径庭。首先,谁能确保企业未来的发展与今天的规划完全吻合?在1999年以前,没有人预测到互联网浪潮会来得如此迅猛;而2000年全球IT投资急剧上升的时候,同样也没有人预测到网络经济竟然会发生这么大的起伏变化。很多数据中心在一次投资大规模网络基础设施后,在市场形势发生变化时很难及时调整策略,决定退出时损失也会非常大。即使把经济环境的不确定性因素排除在外,IT技术的飞速发展也会使得其基础设施迅速过时,最初的投资越大,损失也就越大,令"一步到位"的设想落空。

  二、最终还是会发生故障

  这也是一个不争的事实,它适用于数据中心内的所有设备,不管是ms系统设备,还是数据存储设备。对于关键任务数据中心,必须非常谨慎地选择具有出色服务记录的高质量、可靠的厂商。即便如此,设备最终仍然会发生故障。

  不幸的是,当设备最终发生故障时,人们经常指责厂商没有实现可靠性的预期目标。预期目标必须切实可行,但最终还是会发生故障也是一个不争的事实。

  故障分布可能符合随机模式:一个每100年只发生一次故障的产品实际上可能在使用的第一周献出现故障,换了另外一个产品可能还是如此,尽管这个产品巴达到了预定的可靠性水平。对于这类问题,解决的办法就是在系统必须具备容错能力时,一定要建立允许冗余和并行维护的系统。这样,当一个系统发生故障时,还有一个备份系统可以防止运行中断;与此同时,还可以在不中断运行的情况下对主系统进行维护或修复。

  如果两个系统同时出现故障,仍然会发生君机现象,但是随着冗余级别的增加,这个概率会变得非常低。在电气和机械配电系统中常常会出现下面的错误:虽然采用冗余,但是只有一个电源路径为负载配电。在这种情况下,下行的连接或设备故障就会导致负载中断。尽管电气布线可能非常可靠,但是偶尔也会发生故障。由于这是惟一的电源路径,因此通常不会将其停下来进行适当的日常维护,这样一来,发生故障的可能性就更大了。

  三、IT负载的密度会继续增加

  很多数据中心面临的一个常见问题是负载密度的增加。简单地捌览一下IT设备我们不难看出,计算机服务器等设备的外形尺寸己经变得非常之小,但是在很多情况下,这些服务器需要的功率密度却增加了,因为它们要处理更多的CPU或者硬盘。图1-4是HP公司对IT设备功率密度变化趋势预测的示意图。

  仅以2000年到2010年这10年的变化情况来看,各种设备的功率密度变化可达到+50%~100%。几年前,一个数据机柜中只能装入4~6个服务器,而现在则可以容纳42个甚至更多的最新薄型Web服务器(有时候还配置双CPU)。在确定数据中心电气和冷却系统的规模时,这一趋势经常会造成规划不当。

  过去,在规划数据中心时通常为其配置每平方英尺20~60W的电源。而现在,这个数字很轻松地就可以达到每平方英尺100~200W。当前的趋势瞬息万变,因此预测长期的需要可能非常困难。与很多领域一样,进行适当的规划有助于缓解这个问题。现在,对数据中心的用途以及其中安装的设备进行评估越发显得异常重要。

  一个设计方案是构建一个结构,并使该结构能够在不干扰当前数据中心运行的情况下增加电气和冷却设备。
 

  四、对可用性的要求将进一步提高

  新经济时代的一个明显趋势就是公司、员工、客户和供应商与技术的联系越来越多,也越来越依赖于技术,这些连接的重要性呈几何级数增加,而维护电子商务的需求也便这种需要更进一步。这种趋势的最终结果是对系统可用性水平的要求越来越高。问题的严重性在于,随着对系统功能要求的提高,系统也变得越来越复杂,而正是这种复杂性趋势给提高可用性带来愈来愈大的困难。不管当前的可用性预期值是什么,明天对可用性的预期值都会向更高迈进一步。因此,数据中心的规划应充分考虑够满足未来可用性需要的空间。

  五、数据中心的崩溃可能会置企业于死地

  "置企业于死地"听起来有点恐怖,但是现在己经有了一些由于系统崩溃导致股票大幅贬值、影响企业绩效的实例。

  企业业务流程的性质决定了这类事件对财务或股票的影响。因此,每个企业所遭遇的风险很大程度上取决于企业本身。那些脆弱的企业所进行的交易对时间的的敏感度非常大;他们要处理大量的金钱,用户群庞大或者广告声势浩大。无论在哪一种情况下,只要计算机右机,就会导致交易失败,资金流失,令大量的用户失望,甚至大街小巷都已传遍企业计算机出现了问题。右机带来的全部后果很难事先评估,但其结果却是显而易见的,例如工人生产率的损失和股票的贬值;但也可能非常模糊,例如客户不满意或者声誉受损。
 

 六、如果操作人员并非训练有素,即使是设计最优秀的数据中心也会崩渍

  现在让我们来看一些有趣的数据,这些数据是将设施和数据中心操作人员接受培训的时间与其他主要操作职位所接受的培训时间进行的比较。例如,一个核设施中的操作人员可能接受2000h的培训,空军地勤人员接受培训的时间为1200h,而数据中心操作人员可能很少,可能也没有接受过有关如何操作他们所管理的数据中心关键子系统的培训。数据中心操作人员通常通过在工作中的实际操作和不正规的培训获得知识。尽管这些知识也是正确的,但那是通过犯错误,甚至造成代价高昂的右机获得的。

  希望数据中心在运行时绝少出现右机是业界共同的愿望,但是要做到这一点,必须对操作人员进行有效的培训。对操作人员的培训通常不太容易进行,这是因为制定一套标准的培训计划难度很大。在大部分情况下,培训内容涉及与各生产商的密切合作,要对与每个产品有关的操作问题做详细的了解。除了具体的设备操作,还需要为各类常见任务制定工作程序,以确保正常的实现和最低限度的风险。很多关键负载由于一个很简单的任务而中断,例如闭合了一个错误的断路器。

  七、统计资料显示,数据中心将在未来的s年内由于错误的Epo导致发生宕机

  紧急断电系统(Epo,经常被称成为数据中心的致命点。对于数据中心经理来说,最可,怕的票梦就是发生EPO的跳闸,无论其是人工的还是自动的,因为立即切断计算机的供电对硬件和应用软件极其有害。对于配备了最好的设备和最高冗余水平的数据中心来说,只要紧急断电系统被启动,整个中心就会在约15之内停止运转。尽管这对数据中心的冲击很大,但根据相关法规的规定,在有些情况下还是不可避免的。

  在多数情况下,EPO的错误配置很容易解决,由此产生的对数据中心的冲击是可以避免的。但是,很多数据中心操作人员不了解这些系统是如何工作的,对故障和自动跳闸也不敏感。部分业内数据显示,数据中心大概每5年经历一次故障性跳闸。对于任何希望达到99?999%可用性(5个9)的数据中心,一次EPO错误就会使实现这一目标的所有希望付之一炬,尽管保持的无错误纪录是那样完美。

  八、系统极有可能在状态变化过程(例如维护)中发生故障

  系统发生故障的时间和导致发生故障的事件极有可能是物理学定律和人类行为规律两者的组合。例如,灯泡极有可能在打开时发生故障。这是因为电通过灯丝的突然闪现导致温度的迅速变化,温度的突然升高使灯丝材料热扩张,最终导致断裂。无论是热冲击引发故障,还是灯泡已经损坏,确定是否将要发生故障的惟一办法就是便系统投入运行。

  各种数据中心系统也是如此。电源电子装置,例如UPS设备中采用的IGBT,也会在发生热冲击时显示类似的故障模式。一个简单的预防措施就是:在第一次采用电源电子装置时,该装置不要连接关键负载。

  产生这种现象的第二个也是比较重要的一个原因是人的行为。系统经常会在状态变更之后出现故障,这是因为系统没有正确地返回运行状态。比较常见的例子是打开一个断路器,在一个下行设备(例如发电机)上进行检查维护工作,工作完成后,技术人员忘记关闭该上行断路器,这时在供电系统某个环节发生了故障,当发电机启动时,负载因没有从发电机那里获得能源,因此负载中断。用什么解决方法呢?答案是在维修任一个子系统之后,必须认真进行系统测试,确保一切正常。
 

  九、任何设备都需要维护

  不少人认为数据中心的部分系统无需维护。这种假设很危险。当可用性非常重要时,即使不需要频繁地进行预防性维护的系统也可能需要预测性维护,两者之间的区别十分微小。让我们看一下变压器的维护情况。通常变压器根本不进行维护,但实际上应定期进行检查,清洁外壳,检查负载和容量是否适当。进行这些工作将延长设备的使用寿命,预先发现潜在的问题。主动检查所有的设备有助于预测或发现潜在的问题。

  十、一个数据中心需要经历4-5代的设备更迭

  任何大项目都必须提早计划,以便使用较低的成本,高效地预期未来的使用和需要,也许还会针对当前的需求扩大建设规模。数据中心内安装的设备更迭迅速,这对于数据中心来说可能是非常困难的事。因为一个数据中心要维持15年甚至更长时间,而其内部的设备经常3~4年就要更换,每年都会发生变化,在规划未来几代IT设备时,要预期末来的电气和冷却需求可能比较困难。这种频繁的变化还涉及数据中心与所安装设各的成本问题。一个配备全新的10000平方英尺数据中心的基础设施成本可能不到1000万美元,但是在它的寿命周期内,很容易就可以拥有价值1亿美元以上的IT设备。在大部分情况下,即使最昂贵的数据中心,其基础设施成本也比设备的总体成本低很多。从中可以得出结论:不要在数据中心基础设施设计上过于吝啬。

0
相关文章