自新冠疫情爆发以来,谷歌、微软、Facebook的云服务使用量均以倍数级大幅提升,使得服务器计算、存储和网络资源的需求急剧上升。数据中心管理人员的任务是维持数据中心正常运行和提高可用性,以提供给此刻所急需的网络和计算服务。然而,数据中心管理人员对停电或极端天气事件等各种灾难有明确的应急预案,但前所未有的新冠疫情为数据中心运维工作提出了更高的新要求。
高规格的硬件,是否能确保数据中心的安全运维?根据Uptime Institute统计数据显示,数据中心七成的事故都是人为因素造成的。人为因素属于数据中心运维管理范畴。数据中心运维管理包括运维组织、运维基本制度、运维流程和运维价值提升等。而运维流程又包括事件管理、问题管理、变更管理、维护管理、故障管理、场地配置管理、设备生命周期管理、应急管理、质量管理、成本管理和安全管理等。 也许你会认为运维管理上的疏忽,也许没什么影响。毕竟大部分数据中心配电系统是2N架构,通过高冗余可以使可用性达到4个9以上。然而,没有经过系统培训的运维工程师在应急处置情况下容易犯错,就可能导致停电宕机。宕机意味着什么?对于金融等特定行业而言,就是以秒计算的损失,时间就是金钱。
在整个数据中心生命周期中,数据中心运维管理是历时最长的一个阶段。运维管理是数据中心业务的重中之重,然而,在实际工作中却有诸如人才、技术、需求等多重阻碍因素,极大地影响了运维管理的工作效率。 首先,数据中心市场近年来蓬勃发展,数据中心服务商对专业化人才的需求量迅速扩大,专业化人才供不应求的矛盾十分突出。一方面,行业迅速发展,新技术快速更新,而部分早期从业人员知识结构老化,缺乏业内相关专业资质认证,以至于部分人员不适应新的行业环境要求;另一方面,新增人才补给速度跟不上行业快速发展形势。数据中心服务商如无法招聘到合适的专业化人才,势必对其数据中心运营产生不利影响。
如此看来,经验丰富的数据中心运维团队价值日益凸显,以万国数据、光环新网、世纪互联、企商在线为代表的数据中心厂商因其数十载服务客户而积淀的丰富行业经验,对其疫情常态化形势下的运维工作起到了关键性作用。 以企商在线为例,其不仅运维团队经验丰富,而且针对技术新人培养的优势在疫情中也体现得淋漓尽致。企商新入职员工需要接受为期三个月的标准化技能培训,其培训内容均由具有一线实战经验十年以上的老员工负责整理,将其经历建设、验收测试、处理大大小小的故障的切身经验作为培训课程加以传授。其中,应急预案EOP 24种,设计场景45个,标准化操作流程26类,标准化维护指导书超过20个。可以说,想要在企商的数据中心做个合格的运维人员并非易事,而零事故只是其运维工作的最低标准。 正是通过这样的技能培训方式,将老师傅的切身经验薪火相传,大大缩短了通过经验培养运维人才的时间,并依托整体的体系化培训进行实操、技能提升,让新人提前获取足够的经验,培训后经考核方可上岗,有助于新人迅速成长为技术骨干。
其次,随着互联网发展的不断深入和互联网应用的不断多元化,互联网数据规模呈指数级增长,对互联网数据中心的需求也将呈现指数级的增长。为满足当前互联网基础设施的需求,数据中心还将不断进行扩建,数据中心规模仍将保持上升的态势,这就对数据中心建设规模、承载业务以及存储与计算等技术提出了更高的要求,运维管理负担重等问题凸显。与此同时,数据中心承载业务的业务流量高速增长,对数据中心内部网络管理和性能提出了更高要求。 从数据中心运维机制来看万国数据,万国数据基于20年管理大量大规模数据中心的经验积累,搭载自主研发了13年的软件平台,能驾驭2000-3000MW体量数据中心的指挥控制中心,万国数据将数据中心整体架构进行了立体化的分化,构建起全球运营指挥中心、区域运营指挥中心、单座数据中心三道防线,以帮助指挥调度、秒级定位和应急机测和预测,推动数据中心进一步走向智能化。 在疫情防控的特殊时期,创新型技术的应用必不可少。
世纪互联利用智航运维系统上的能源管理模块来检测数据中心的功耗、PUE、碳排放、碳使用效率(CUE)等数据。该模块内置AI控制系统,通过历史数据,建立系统模型,计算最优运行策略和设备参数,以达到降低系统能耗的目的。世纪互联加速部署先进的绿色低碳技术,既可提升产品经济效益,又可打出产品差异化,还能提升产品的合规性。 再以企商在线燕郊金融大数据算力中心为例,该运维平台设计规划60人座席提供网络、负载、生产能力、 电力、温度、安防监控,实时推送,并通过IT运维管理可视化,可以对数据中心内所有网络设备、应用系统、操作系统等进行安全监测,通过3D机房可视化、安全态势可视化、信息资产可视化等方式,能帮助运维全方位感知数据中心园区网络安全态势,实现高效的预测管理以及容量管理,提供金融级绿色高效数据中心服务。
数据中心稳定性不仅受限于运维管理水平,也受系统架构、设备品牌等因素影响。因此,实力雄厚的数据运营商如今大都按照T3及以上级别规划数据中心基础设施系统架构;在设备品牌方面优选国际一线品牌、国内一线品牌设备供应商,从设备端降低故障发生率;在测试验证方面,则通过综合测试验证数据中心可用性,排除建设过程中的缺陷,减少运维过程中的隐患。 有行业专家表示,以北京为例,当前已有很多数据中心已经进入“中老年期”。对于这一类数据中心而言,可能存在以下两方面问题:其一,是当初的规划设计已经不满足目前市场环境需求的问题。
目前,市场环境所需要的数据中心,应当是单机柜供电密度相对更高、能效利用水平更好的数据中心,然而,很多中老年数据中心就输在了起跑线上。同时,能效利用水平的较低会导致企业经营成本的升高。其二,是设备的折旧问题。甚至有可能是因为运维管理的不足,导致设备提前折旧,而这种情况并不鲜见,运维可靠性很难得到保障。 因此,想要保障业务的高效顺畅运转,选择拥有丰富运维经验的大牌数据中心厂商是必选项,与此同时,选用一家按照行业高标准倾力打造的最新数据中心亦是大有裨益。