【IT168资讯】2005年,位于太平洋西北的国家实验室数据中心发生了一些问题。几乎每个月都有临时中断的情况发生,每次都使数据中心宕机几个小时。国家实验室数据中心服务经理Ralph Wescott表示,企业购买越来越多的机架服务器来提高计算资源,现在机架服务器的价格已经很便宜了,在当时还是非常昂贵的。国家实验中心是由美国能源部管理。在2005年的七月,服务器空间已经达到了它的容量限制。
“集团会买来一个服务器,然后放到我面前说'嘿,把这个装上" Wescott 说,“ 但是我已经没有任何空间、电能或制冷(容量)了。如果我再安装多一个的话,整个空间就会变暗。”
Wescott和PNNL在不损害预算的情况下,着手做了一个项目来修补他们的数据中心。三年来的每个季度,数据中心团队会花一个周末关闭服务器,换掉一些老的服务器,用一些更高效的运行在天花板上的网络线缆取代地板上错综复杂的网络电缆。新配置可以更有效的在地板下制冷。
结果呢?PNNL把原来的500台服务器运行的500个应用转到了在150台服务器上运行800个应用。
IDC分析公司金融执行策略技术总监Joseph Pucciarelli表示,在紧张的经济情况下,解决这些信息技术项目要求紧控成本。
“这种情况是很常见的,”他说,“公司的投资都是预算好的。当问题出现时,他们看待问题也是以一种受迫的方式来对待。”
以下就是PNNL把数据中心从危险的边缘拉回来的一些经验总结。
1. 计划。
不要受第一个问题影响。Wescott表示需要解决的就是当数据中心每个小问题出现的时候,团队都会受到影响的习惯,而不是看到体系的问题,就创建一个计划来创建一个可持续服务。除了500台服务器,数据中心有33000个线缆把服务器和电能、网络和安全系统连接起来。
“我们决定数据中心的样子和它的容量。”他说。
团队最后总结,当前的轨迹会导致3000个应用,并且每个都在它自己的服务器上运行了10年。现在,数据中心有81%的虚拟应用——Wescott计划达到90%。
IDC的Pucciarelli表示公司应集中在三个方面来提高容量。减少物理服务器和虚拟系统上运行的程序可以帮助减少功耗要求,就像这样做可以使制冷系统更高效,同时也能改善电力分配一样。他说:“在更新数据中心时,那是典型的你应该去做的事情。”
Pucciarelli遇到了很多仅用两个或三个更大容量系统取代高达50台服务器的公司,这些公司使用虚拟化运行应用。
2.监控工具。
PNNL公司的Wescott表示,数据中心经理需要一些方法来测量监控数据中心的状态,但是所有的都太频繁了,他们并没有合适的工具来监控。在改变之前,太平洋西北国家实验室没有任何方法来测量数据中心的高效性。当房间变暗时,就会发现电力问题。或者凭经验你也可以发现一些问题。
“如果电力供应导致电流太大了,我发现可能是断路了。如果它是温的,那么我知道我们有问题了”他说,“那就证明你需要工具了。”
现在,PNNL在低、中、高点的第四个柜子上都有传感器,通过传感器创建一个服务器空间的三维热地图。这些数据允许Wescott改变冷却数据中心的方法,在需要的地方可以提高整体的温度和制冷。
他说:“我认为那会给我节省很多钱,主要是空调的磨损什么的。”他还补充到,目前估计数据中心在冷却方面的效率提高了40%。
3.循序渐进。
Wescott表示在不影响操作的情况下从根本上重新配置数据中心是一个主要问题。管理者强调逐步采取措施减小故障的发生,但把决定留给了管理者。
“我给管理部门提供了两个选择” Wescott说,“一个是从头做起,在整个校园花费七天时间;另一个是我们在每个周末断一次线。”
Wescott表示,通过采取小步骤,我们团队准备一次一排替换数据中心。在第一个为期三天的周末,30个人的团队在数据中心花了14个小时,换了一排机架服务器,并测试了新的配置。很快,数据中心变的更可靠,性能也更稳定。
他表示,如果管理部门不同意数据中心瘫痪,提醒他们有一个瘫痪计划比突如其来的无计划的故障要好。
Wescott说:“你不能在船航行在海上时,给船的底部刷油漆,但是如果你永远都不刷,它就会下沉。”
4.为了长期效益投资。
为了减少冷却系统的能源要求,Wescott集团评估了节水装置,这个节水装置是利用水和外面的温度来冷却机架服务器。他们估计使用环境冷却系统从长远看更节省资金,节水装置的冷却机组价格比预算也高出了10%。Wescott通过与供应商协商,把价格降到了预算内。
“他们已经付出了很高的代价了”他说。
5.总结能耗分布
在重建数据中心时,找出你不懂的,管理者也需要找出能源消耗的很少或没有收获的地方。数据中心的瑕疵是ghost和服务器。
Ghost服务器是已经被部署的,但仍未被使用的机器。他们仍然需要能量,它的核心工作不是帮助数据中心。一个闲置的服务器是某人放在办公室、放在数据中心的外面的机器,位于任何数据中心人员限制外的。
Wescott表示这样的服务器会浪费大量的能量预算。
“那些应该每晚关闭空调的建筑里面就一直让他们的闲置服务器运行着”他说。
自从他开始修改基础设施,数据中心只有一个单一的计划外的停机——由于一个极热的天和一个冷却系统的失败——Wescott知道他还没有完成这项工作,推迟是不可避免的。
“我们已经计算好了”他说,“在今后的五年里,因为存储我将会走出空间(room),并且我很可能会用完那个空间的空间。”