数据中心的自动监控系统在市场上来说较新颖,起初这类产品包含各种功能,像是保存设备记录以及控制设备的移动和维护。 直至今天,它功能不仅是绑定数据库来绘制图表传达机房信息, 现代系统更能解决数据中心操作上的各种任务。在此篇文章,我们将了解业界中常出现的问题,并尝试寻找解决问题的方法。
扩展多样性功能
数据中心的工程基础设施可区分成两个控制回路, 一个处理机柜的冷却和电力分配,另一个处理整体设施的电力系统、空调系统及各种辅助子系统(灭火,门禁控制等),通常这两种回路和它们的组件是彼此独立且由不同部门的运维人员操作。
企业通常不愿意为基础设施管理购买整体解决方案,尤其商用数据中心。 而公司的管理阶层常常想节省花费,同意选用零散的空调和UPS系统为规划。然而,多个控制电路之间缺乏沟通桥梁,数据中心子系统的不同自动化水平以及多家不同的设备供货商,使所有设施部分的协调工作复杂化,导致在整合上遇到许多困难。
控制模式
在最坏的情况下,小型的数据中心子系统是手动控制的,并且使用微软Excel来记录设备的安装和移动,通常这文书记录自然是一团糟,因为使用电子表格保持正确的数据库是一项非常有挑战性的任务,当机柜数量以十为单位进行测量时,这时会有手工核算的问题产生,而且此类的数据中心在发生故障时才会更换设备,但这会增加发生事故时的间接成本和停机时间。
如果停机时间对数据中心非常关键,则应使用反应控制模式,这种模式可以监控故障排除程序,且持续有文书纪录。 但是,该流程需基于员工有足够经验以及他们对数据中心的有一定的了解,在发生事故的情况下,可以很快消除问题。如果缺乏全面分析故障原因的机会,在预防方面存在严重困难,而当只有几位专家知道如何管理设施的所有过程的情况下,假如一名专家离去,就会衍生新的问题。
更先进的管理模型始终以服务为导向,它负责设施所有子系统的完整文书工作,且明确规定了更换和预防性设备维护的规则及程序,并对其安装的移动进行了彻底的运算,同时提供营运报告关于工程系统参数、事故说明和人员事故的消除措施。
以服务为导向的数据中心管理方式主要特色是具主动性,该模型不仅可以分析错误的原因,还可以在问题发生之前进行预测,建立快速恢复服务的解决方法。当然,如果不为所有数据中心子系统导入单一的自动化监视和调度系统,这种方法是不可行的。根据经验显示,因缺乏高技术的专家,往往错误都是属于人为,但如果调度中心属于是自动化的,且所有设施维护规则和规章都已制定,那大多数人员只需要基本知识即可。
监控与调度
大约十年前,将所有工程子系统结合至单一平台DCIM(数据中心基础架构管理)解决方案。DCIM的第一个版本可以草拟方案或计划,并维护文书工作,但现在的功能已有很大变化,现代的解决方案可做到与不同制造商设备中的内置监视工具进行相连,并连接其他传感器、控制器、讯号转换器和数据收集系统,收集机柜至各级别的能耗,机柜、冷却系统和内部管道中的温度和湿度,以及液体泄漏数据的信息,此为达成预期目的的最低要求。
一旦安装了DCIM,客户可拥有一个整合的监控环境系统,处理包括所有关键子系统和IT设备的数据,主要任务是结合其中最大可用数据的流量,及时收集和处理数据,使机房人员可以全面了解数据中心所有子系统的功能状态,包括实时的运算能力。这就是DCIM的另一个优点,可以减少人为因素对数据中心子系统性能的影响。
选择上的难题
企业导入DCIM的时机可能不尽相同,但最好在设施的设计时间导入DCIM,此时还可选择不同制造商的设备,整合成现有独立子系统,在数据中心设计时间选择解决方案不会引起任何问题,这通常由系统集成商完成,该系统集成商会帮助选择必要的硬件和软件。
现有数据中心的情况比较复杂,现在需要召集一个工作小组,其中包括相关部门的代表,且需列出希望监控的基础设施的所有参数和节点的列表,并按重要性从高到低的顺序排列,并且审核基础设施设备支持的协议和通信方式,再考虑要安装哪些感应器和控制器。
利用这些信息,选择了必买的软件解决方案,再列出要扩充的设备去估算整体项目预算,将DCIM的导入完全外包是一个好主意,错误产生在设计时间的花费会比系统集成商的服务花费更多。最初DCIM系统是要本地导入的,但是现在许多开发者将其作为SaaS(软件即服务)提供,这种方法可以大大减少支出。
优化的立基点
数据中心运营的主要支出是电力成本,IT设备和冷却系统的运作消耗了大量电费, 因此须先优化能耗,能耗取决于许多的外部和内部因素,例如,气候和天气条件(包括季节变化)会直接影响冷却系统,其中DCIM还可以分析电信设备以及其他子系统上负载增减时的试算。无法手动去计算所有的因素,但可以利用DCIM系统做到运算和分析实际的累积出统计数据,从而找出基础设施中的问题区域。
数据中心最关键的指标之一是能源使用效率(PUE)系数,该系数显示IT负载、冷却和UPS运行花费了多少功率,配电系统花费多少能耗,PUE计算方式是将机房总用电量除以IT设备总用电量。起初,人们认为1.6到2.0的PUE系数是可以接受的,但是现在市场上追求更高效的数据中心,大家持续努力将PUE保持在 1.1到1.2的值之间。通常,机房能耗是在UPS的输出、配电单位的输出以及IT设备的实际使用情况下测量的。
根据获得的数据,可以准确地得出数据中心的能源效率,虽然PUE不能反映某些数据的细微差别,例如,无法试算服务器的停机时间或确认有问题的热点来源,但PUE还是非常重要。还有,将PUE降低到接近1时,通常会导致数据中心的可靠性降低,事故和设备使用寿命的降低会抵消节能效果。
现代控制系统可以从服务器、机柜和配电设备收集能耗数据,甚至可以监视每个通讯点,可以以易于理解的直观形式显示关键资源消耗的统计信息,从而更容易找到能耗最高的区域来优化成本花费,还可以找出负载较低的时间段,以便在这些时间段内安排维护。能耗高峰分析可将能源储备保持在10%-15%的范围内,来取代手动控制的情况下的30%-40%,让这也成为一笔可观的成本节省。
DCIM解决方案还可监视其他工程子系统,例如,DCIM可绘制气流以识别空调和气候控制系统的问题区域,这些区域的用电量在机房中仅次于IT设备用电量。在严重问题出现、预防并迅速消除其问题之前,不要忘记进行故障排除,这可以提高基础架构的可靠性并降低成本。仅在小型服务器机房中才适合用手动控制,但在有数十个甚至数百个机柜的机房时,必须导入DCIM。
产业的展望
到目前为止,我们仅讨论了基础架构工程,因为IT基础架构管理被认为是一项被区分开来的任务,通常跟DCIM有不同的系统。对于商业型的数据中心,IT设备的工作属于客户责任范围,但是,虚拟化融合/超融合基础架构的发展正在逐渐改变这种状况。今时,开发者正在开发可实时监控单一实体设备上的虚拟服务器解决方案,IT供货商正在其产品中嵌入大量感应器以监控能耗和温度。
虚拟化环境中的有效负载计划必须涵盖所有级别:操作系统和应用程序、服务器,存储系统、电信设备和通讯管道,当然还包括物理资源,例如:电源,散热,加湿系统等。DCIM解决方案不仅是大型数据中心的其中一环,在不远的未来,DCIM、虚拟化平台和IT基础架构管理系统将会紧密整合。