数据中心 频道

如何帮助IDC卸掉“电手铐”

  【IT168 资讯】作为一家以地球物理勘探与服务业务为主的企业,东方地球物理公司对高性能计算旺盛的需求,使得原本被忽视的电能需求成为束缚他们发展的“手铐”,他们希望找到一种有效的方法从中解脱出来。

  成本之痛

  2008年8月7日,北京2008奥运会开幕式前一天,东方地球物理公司(以下简称BGP)研究院副总工程师、处理中心总工、教授级高工赖能和从河北涿州驱车北京,一天跑了两个地方,上地和中关村,与4家公司进行技术交流,高密度的工作安排一切都是为了数据中心如何提高设备利用率、如何节能降耗。

  “目前我们每天的电费大约3万多元。”据赖能和说道,从2002年到2007年,BGP所拥有的CPU数量、总体运算能力、总存储容量分别增长了40倍、7354倍和300倍。“我们现在拥有超过1.5万颗CPU、2.6万多个核、2000T存储规模的数据中心,每年光电费成本就超过1000多万元。”

  作为中石油的找油先锋。赖能和所在的东方地球物理公司主要以地球物理勘探业务为主,国内业务分布在12个省区15个油田,国际业务分布在全球30多个国家。BGP在全球地球物理服务公司中综合实力排名第四位,陆上地震勘探排全球先进位。

  据赖能和透露,BGP之所以具有如此强大的勘探能力,高性能计算(HPC)发挥了重要的作用。“CPU和计算能力的增加,间接地给BGP带来的就是能耗不断增加。”赖能和给记者算了一笔账:如果增加1万颗CPU,考虑到空间、照明、人员等环境因素和制冷设备冗余,光是大功率的专业空调就需要新增22台。如果将来增加到2.5万~3万颗CPU,加上机房制冷空调、UPS等设备的能耗,那时的电费真可谓是一个“天文数字”了。

  计算能力的增加是目前石油勘探行业的发展形势所迫。一方面,要确保国家能源安全,这一任务非常艰巨;另一方面,近年来随着油气勘探开发的不断深入,勘探开发的技术难度越来越大。油气公司为了解决复杂地表及地下地质构造成像问题,提高地震资料成像精度和勘探开发效益,减少勘探开发风险,加大了地震叠前偏移处理技术的推广应用力度,所以勘探公司必须大幅度增加自身的计算能力。

  “每年的电费真让人心痛!”赖能和在为能耗的问题而苦恼之时,管理的困境也在围绕着他。

  管理之困

  相比于其他企业,BGP数据中心绝对是个“老壮派”,自1964年建立已历经了40多年的发展:1995年以前完全是大型机时代,机器从最早1973年的DJS150百万次/秒计算能力开始,到1977年物探局引进的千万次/秒计算能力的CYBER1724计算机。自1995年后,进入UNIX时代,BGP开始引进IBMSP2机器,2002年开始应用PC集群。除计算能力增长很快外,机房面积也扶摇直上。直到现在,BGP的数据中心已超过3600平米,加上其他地区分院的机房,总面积高达6000平米。

  数据中心计算能力和面积的飞涨增加了管理的复杂性。“1万多颗CPU管理非常繁杂,如何合理调配,充分发挥它门的性能,是个大课题。”据赖能和解释,与CPU相配套的存储、网络技术的发展得并没有像CPU的发展那么快,所以CPU的性能很难充分发挥出来。另外,面对高密度的机房,人力已经无法管理。以涿州为例,150个机柜分布于2层楼中,每层1600平米。哪个机柜的CPU出现问题,哪个地方的网络堵塞了,只有专业人员到现场才能看出来,即使看出来,可能也无法真正了解清楚,这很费时间。管理人员很难了解到机柜的利用率是多少,当一部分服务器完成计算任务之后,它们处于闲置状态很难快速传递到管理平台之中。数据的安全也令人担心,磁盘都是机械和电子设备,难免出现磁盘本身的故障和人员操作的失误,几千TB的数据都是BGP宝贵的数字资产。

  设施的安全性也不可掉以轻心。UPS、空调等诸多设备,要保证它们运营时的安全,是不是存在安全隐患?目前虽然采取了一些温度、湿度、漏水的监控措施,但还是不够完善。今年7月闷热潮湿的天气比较多,再加上空调排水管的老化,接头地方不牢,数据中心的空调突然出现滴水。这可急坏了管理层和技术人员,机房里那么多的设备,最怕的就是水,万一哪台有个好歹……好在发现得及时,没有造成太大影响。但这次事件给领导敲响了警钟,也引起了高度重视,他们立即组织人员重点找原因,进行排查。

  赖能和说:“像我们这样的大型数据中心,要有安保措施、报警系统、自动监控系统,这样才能更好地杜绝运营中的安全隐患。”经过这次事情后,他们立刻着手进行整改。

  优化之艰

  与普通数据中心不同,HPC的节能降耗是一项系统工程。普通的数据中心可以通过降低电压、动态平衡负荷的方式来降低CPU能耗,但是高性能计算机因为负担的数据量大,在CPU、操作系统、应用软件、机房制冷层面,都应该指定具有节能降耗的解决方案。而且这些解决方案必须相互间有所关联和互动,才能保证整体节能降耗的效率和效果。

  赖能和举了个例子,如果要达到1万颗CPU的计算能力,考虑空间、照明、人员等环境因素和制冷设备冗余,总共需要100KW专业空调22台。降耗节能是数据中心非常关心的一个问题,近5年他们已投入1300多万元,经历四五次大的改造,进行资源优化配置、技术改造,收到了近亿元的经济效益。

  2003年~2004年,主要针对CPU资源利用率进行提升。他们曾用软件测试过两套128CPU处理能力的集群在资源常规处理时的利用率,发现它们只有14%。而主要原因出在I/O网络上,。他们调整了节点的标配,并针对石油物理的应用进行优化,增加了配套的外部设施,这样将CPU的利用率提高到30%以上。

  2005年~2006年,他们又进行了32位向64位转移的改造。经过测试,在价格相当的情况下,64位的某叠前偏移软件在64位的集群上的运行速度,比32位的某叠前偏移软件在32位的集群上快2~2.5倍。同时,64位机器处理文件的大小突破了2G的限制,内存突破了4G的限制,对叠前时间偏移的运行效率有明显的提高。之后,他们又迁移了3000颗CPU,由于利用率的提高,投资大幅度减少,为公司省下上千万元费用。

  2007年的改造重点在存储系统。原来他们的储存绝大多数是小盘阵,单用户应用时效果还不错,但多用户使用时性能得不到保证。2006年~2007年已投入几千万元引进400TB的SAN全光纤架构的共享存储系统。目的就是为了对存储和计算资源进行大规模的优化整合,以前是CPU在等数据,现在磁盘硬件转速提高3倍,故障点减少,也没有数据的孤岛,CPU利用率又得以提高,常规处理的利用率提高到接近40%。

  绿色之鉴

  除在IT设备的节能动脑筋外,机房的基础设施和散热设备的改造也会带来可观的成本节约。“CPU的快速增长,对我们的场地面积占用很大,电费上升非常快,以前我们对IT设备外的配套设施也没有考虑得那么周全。我们统计分析后发现,在每年的支出中,除CPU等软硬件之外,其他基础设施和散热设备费用占1/3,应有很多文章可做。”赖能和说道。

  随着石油勘探行业高性能计算规模的扩大,迫切需要解决高密度机房的散热和制冷问题。据赖能和介绍,他们采取的措施有很多,如改造机房地板,引入格栅来定向调节风向、风量和风速,并设置定向机柜以更好地排热。通过格栅等技术定向调节风量使其均匀,因此能够大大降低温度,节省电量,每年能够因此节约电费几十万元。此外,通过整治高频谐波,可以降低谐波率,也能够降低每年数百万元的电费。

  在数据中心的管理中,他们意识到资产管理有可视化的重要性。能不能在一个全面的视图中,非常细致地捕捉到每一个局部的信息,并可以在操作台上控制?他们正在尝试应用一些数字化管理手段,来进行资产和运营成本的精细化管理。未来会把CPU、存储、网络等资源监控与OA系统整合,这样就不用一天跑几次数据中心了,在办公室里就可以看到数据中心的全部情况,进行资源的实时管理。

  扩建之机

  数据中心的业务这6年发生了非常大的变化,与2002年相比,业务增长5倍,产值增长5倍,而人员没有增加。未来3-5年,赖能和说:“我们在‘蓝色国土’的开发上,比陆地要快得多得多,CPU还要增加二三倍。”“我们已经没有地方摆下更多的IT设备。”2006年1月,他们就着手规划未来的数据中心,总部新机房面积超过设计为6000平方米,2009年年底投产。未来的数据中心会更加绿色、更加自动化,信息化管理手段更高,向着更加智能化方向发展。”赖能和说。

0
相关文章