【IT168 图书连载】以下内容来自由顾大伟、郭建兵、黄伟主编的《数据中心建设与管理指南》一书,由万国数据科技发展(昆山)有限公司授权IT168发布。该书是国内首部系统论述数据中心建设与管理的专著,从数据中心生命周期和数据中心可持续发展的六个基本要素出发,全面阐述了数据中心建设、管理的科学体系和方法论,以及企业级数据中心的评价体系。该书内容符合中国数据中心建设现状和发展趋势,内涵丰富,具有原创性和很强的实用性,是国内数据中心建设与应用的权威指导书。IT168数据中心频道将以每天一章的频度陆续发布,敬请大家关注。
阅读更多章节内容,请点击《数据中心建设与管理指南》专区
第6章 数据中心专业化运维
数据中心作为信息与信息系统的物理载体,目前主要用于与IT相关的主机、网络、存储等设备和资源的存放、管理。只有运维好一个数据中心,才能发挥数据中心的作用,使之能更好地为业务部门提供强大的支持能力。本章从IT服务商的角度对数据中心运维管理进行系统的介绍,其出发点在于运维的精确控制、管理水平和服务质量的持续提高,对于其他类型的数据中心建设模式也有较高的参考价值。
6.1 数据中心运维管理概述
6.1.1. 运维目标
从数据中心角度来看,数据中心运维管理就是:为提供符合要求的信息系统服务,而对与该信息系统服务有关的数据中心各项管理对象进行系统的计划、组织、协调与控制,是信息系统服务有关各项管理工作的总称。数据中心运维是数据中心生命周期中最后一个、也是历时最长的一个阶段。所谓生产运维期指的是从数据中心项目交付使用,直到项目废除的全过程,也就是项目进行生产运维活动,收回投资,以实现预期投资目标的周期。在此阶段的运维管理,将依托于数据中心已交付的基础设施,通过科学的管理,最终使数据中心得以实现服务与经济上的目标。简单地说,运维管理就是用好、管好已建设交付的数据中心。因此,在数据中心生命周期中,运维管理主要肩负起以下重要目标:合规性、可用性、经济性、服务性四大目标。
1. 合规性
合规性,要求数据中心在运维管理过程中能避免违反任何法律、法规、标准与合约文件等规定。这里要求数据中心在运维管理的管理框架设计与执行全过程(包括人员使用、流程设计、产品部署与厂商管理等),能充分考虑有关文件的要求,并在运维管理过程中留下相应的记录,建立起相应的管理评估机制,以向利益相关方证明其能达到合规性的目标。
2. 可用性
可用性,要求数据中心在运维管理过程中能保证数据中心各功能组件保持支持既定功能的能力。这里要求数据中心在运维管理过程中能准确识别相关功能组件,了解该组件的设计能力,定义与该组件技术特点相匹配的监控指标,并通过主动与被动的管理,最大限度地保证数据中心各管理组件的可用性。
3. 经济性
经济性,要求数据中心在整个运维管理周期中实现数据中心预先要求的财务目标。这里要求数据中心在运维管理过程中,要建立IT财务机制,一方面通过合理的财务预算、会计、成本分析等手段准确、及时地分析、记录运维管理过程中的各项支出;另一方面要制定相应的计价模式,将数据中心运维过程中的成本合理地分摊。此外,要通过财务管理,使数据中心在运维管理上实现成本与其他管理目标的相对平衡。
4. 服务性
服务性,指数据中心应建立服务导向型的运维管理框架。要从服务的角度出发,分析客户与数据中心的各种交互界面,以此为源头构建各种管理流程,最终形成整体管理框架。比如,数据中心在管理体系的设计上可以参考ITSM(IT服务管理体系)的要求,建立服务台、服务水平管理、业务关系管理等流程,以此来驱动后台运维管理工作。
6.1.2. 运维对象
如前所述,数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。因此,在探索数据中心运维管理方式之前,必须要理清数据中心的运维对象,才能针对数据中心特定的运维对象建立相应的管理模式。数据中心运维对象共分成5类,如图6-1所示。
图6-1 数据中心运维对象
第一类运维对象是基础设施部分。这里主要指为保障数据中心所管理IT设备正常运行所必需的网络通信、电力资源、环境资源等。这部分设备对于客户来说几乎是透明的,因为大多数客户基本上只关注业务,并不会关注到数据中心的风火水电。但是,这类设备如发生意外,对依托于该基础设施的IT应用来说,却是致命的。基础设施部分的主要内容如图6-2所示。
图6-2 数据中心基础设施
第二类运维对象是在提供IT服务过程中所应用的各种IT设备,包括存储、服务器、网络设备、安全设备等硬件资源。这类设备在向用户提供IT服务过程中提供了计算、存储与通信等功能,是IT服务最直接的物理载体。
第三类运维对象是系统与数据,包括操作系统、数据库、中间件、应用程序等软件资源;还有业务数据、配置文件、日志等各类数据。这类管理对象虽然不像前两类管理对象那样“看得见、摸得着”,但却是IT服务的逻辑载体。
第四类运维对象是管理工具,包括了基础设施监控软件、IT监控软件、工作流管理平台、报表平台、短信平台等。这类管理对象是帮助管理主体更高效地管理数据中心内各种管理对象,并在管理活动中承担起部分管理功能的软硬件设施。通过这些工具,可以直观感受并考证到数据中心如何管理好与其IT直接相关的资源,从而间接地提升IT的可用性与可靠性。
第五类运维对象是人员,包括了数据中心的技术人员、IT运维人员、管理人员以及提供服务的厂商人员。人员一方面作为管理的主体负责管理数据中心运维对象,另一方面也作为管理对象,支持IT的运行。这类对象与其他运维对象不同,具有很强的主观能动性,其管理的好坏将直接影响到整个运维管理体系,而不仅仅是运维对象本身。所以,下文将有专门章节探讨对人员的管理。
6.1.3. 运维要求
由于数据中心运维对象涉及种类比较多,从供配电设施到IT设备、到应用系统、到各类人员,这无疑要求数据中心的运维管理应能适应上述所有的管理对象。另外,作为IT服务的物理载体,客户对IT服务实时性、安全性、可靠性等的要求最终将内化为对数据中心运维管理的要求。最后,如果该数据中心要通过一些专业认证,或为一些特殊行业提供IT服务,其运维管理必须符合相关标准与行业规范。以下列举了部分运维管理方面的要求。
1. 信息安全的要求
随着技术的广泛应用与信息的转型,信息对机构来说,已经变得与土地、人力与资金等传统资源同等重要。另外,随着信息面临的威胁逐年增加,如病毒、钓鱼网站、间谍软件、错误操作、越权使用、人员安全等,作为承载客户信息系统运行的数据中心而言,信息安全绝对是其运维管理的重要要求。
2. 运维管理服务化的要求
随着客户对IT系统依赖程度的增加,数据中心的工作质量将直接影响到客户的业务、市场甚至是公司形象等。由于信息系统宕机导致企业一天遭受数千万元的损失,甚至被监管机构处罚的例子屡见不鲜。这个变化使得数据中心的运维管理逐渐浮出水面,数据中心运维管理团队已从原来的机房管理者演变成了IT服务的提供者。如何定义数据中心工作与服务的关系,如何建立与客户之间的服务水平协议,如何快速地支持客户业务的IT服务需求,如何规划好IT系统建设更好地为业务部门提供发展的动力等,均成为数据中心运维管理规划过程中不可或缺的一部分。
3. 全面质量管理的要求
数据中心运维管理的目标之一就是要保障用户IT服务的按质提供,该目标又可细分成基础设施的可用性、IT设备的可用性、配置管理的有效性、人员对设备操作的熟练程度、服务商管理的到位程度等多个方面。由于数据中心与制造企业不同,上述服务性的工作毕竟无法像工业产品那样容易衡量质量,而且就算是在检查的时候服务质量是合格的,也无法确保在需要该服务时服务质量也是合格的。因此,如何做好全面的质量管理是数据中心运维管理的主要内容。
4. 管理制度体系化的要求
数据中心作为一个新生事物,对其运维管理也是近年才兴起的一门学科。因此数据中心的运维管理制度主要靠运维人员利用以往的经验,并总结数据中心管理过程中的经验教训而逐渐建立起来的。这样的管理制度能满足一定的管理要求,但由于没有一个标准的指导,而且在搭建初期主要遵循从下而上的方式,从而导致整个制度的体系化不足。这种体系化不足的缺陷会导致企业管理出现零散化,也就是当组织面临一个新的工作或管理要求时就会产生一个新的制度,而该制度与原有制度之间的关系则难以进行整合,最终会使管理者无所适从。
5. 管理制度测量的要求
随着IT技术应用的广泛和深入,以及精细化管理的提出,量化管理已成为许多成熟企业努力的方向。作为直接支撑IT服务的数据中心来说,也需要导入这种量化的管理方式,用数字来说话。这就要求数据中心在构建运维管理体系时,要考虑将来的测量需求,并在流程中预留这些测量点,最后通过报表、记录的输出,达到对该制度进行测量的要求。
6.2 数据中心运维管理框架
6.2.1. 运维管理框架4Ps概述
所谓数据中心运维管理框架是指管理一个数据中心所使用的方法与手段的总称。那么,应该用什么样的方法与手段来管理数据中心呢?在此,信息技术基础架构库(Information Technology Infrastructure Library,ITIL)给出了一个比较好的管理框架,即所谓的4Ps。数据中心运维管理框架如图6-3所示。
图6-3 数据中心运维管理框架
1. 人员
人员是数据中心运维管理的基础,也是数据中心运维管理的核心。一个好的数据中心运维管理框架,少不了合适的技术和管理人员。从前面数据中心运维管理概述中,可以看到数据中心所需要管理的对象,包括基础设施、IT设备、系统与数据、管理工具和人员等。只有具备相应知识背景与管理经验的人,才能有效地整合上述资源,为客户提供符合质量与合同要求的IT服务。因此,在考虑建设数据中心运维管理框架时,必须要考虑到:如何建立起一套科学合理的包括选、用、培养、考核及解聘的人员管理生命周期;如何通过合理的组织架构设计与人员分工,最大限度地发挥个人的主观能动性,为组织目标贡献力量等。
2. 流程
流程是数据中心运维管理质量的保证。作为客户IT服务的物理载体,数据中心存在的目的就是保证服务可以按质、按量地提供。服务与产品有着许多的不同,其中最核心的不同在于服务本身是看不见、摸不着的,但又是能通过服务商与客户的互动为客户所感受到的。为确保最终提供给客户的服务是符合服务合同的要求,数据中心需要把现在的管理工作抽象成不同的管理流程,并把流程之间的关系、流程的角色、流程的触发点、流程的输入与输出等进行详细定义。通过这种流程的建立,一方面可以使数据中心的人员能够对工作有一个统一的认识,更重要的是通过这些服务工作的流程化使得整个服务提供过程可被监控、管理,形成真正意义上的“IT服务车间”。
3. 产品
产品是数据中心运维管理的加速器。数据中心运维管理涉及的对象庞杂,且重复性工作较多。若完全依靠人工去完成这些工作,一方面对人员的技能与数量有较高的要求,另一方面在工作质量的保证方面也存在风险。为此,越来越多的数据中心在开展运维管理工作时使用大量工具,目的是通过这些工具的部署取代一些监控、操作、配置文件、工作流管理等大量重复性工作,最终实现提升运维水平、降低运维风险、减少运维成本的目的。
4. 服务商
服务商是数据中心运维管理的支持者。作为专业化的数据中心运维管理,有效地整合数据中心管理对象,并最终为用户提供专业化的服务才是数据中心服务提供者的核心价值所在。而且,数据中心运维管理中涉及了太多不同种类的设备,数据中心也不可能把所有的技术与管理工作独自承担。聘用一批既懂变压器、发电机、UPS,又了解空调、消防、防火设备,同时还精通IT相关软硬件的人员,对于任何一个企业或机构均是极大的成本支出。所以,数据中心需要与许多设备供应和服务提供商建立良好的战略合作关系。
6.2.2. 运维管理的人员要求
如前所述,人员既是数据中心运维管理的基础,也是数据中心运维管理的核心。一个数据中心组建团队时应注意什么呢?以下重点就人员技能、人员分工与人员管理三个方面谈一下数据中心运维管理方面的人员要求。
1. 人员技能
现在回到数据中心的运维对象来分析数据中心需要配备怎样的人员。数据中心人员技能构成如图6-4所示。
图6-4 数据中心人员技能构成
基础设施操作和技术人员。这类人员的主要职责是保障与数据中心服务相关的基础设施的稳定运行。他们应掌握数据中心各类基础设施的原理、使用方式、维护方式,并具备简单故障诊断的能力。而且还能协助开展数据中心场地、设备性能的能力管理与可用性管理。由于数据中心业务的特殊性,这类人员需能支持7×24小时服务。
IT设备与IT系统的操作或技术人员。这两类人员的主要职责是保障客户IT服务相关的设备与系统的稳定运行,同时根据客户的要求完成IT系统的检查、后台操作、批作业处理、备份、恢复等相关工作。如果数据中心规模较大,将会按技能的不同将IT人员分成硬件类与系统类的两组人员。如果数据中心规模较小,通常会将这两组人员合并,统一负责数据中心所有IT设备与系统的操作与维护。
系统工具管理人员。这类人员与IT设备、系统管理人员最大的不同就是服务对象的区别。前面的IT设备、系统管理人员是围绕客户相关IT设备与系统提供服务,而系统工具管理人员则类似于内部的IT部,是为包括IT运维管理人员、IT系统技术操作人员、IT设备技术操作人员、基础设施技术操作人员在内的所有人员提供服务。而服务的手段主要是通过对现有技术管理工作进行分析,找出数据中心管理的诉求,并通过向外采购或自行开发的方式以技术的手段去满足上述管理诉求。他们对于数据中心外部的供应商来说,承担了管理者与项目经理的角色,对于数据中心内部的技术管理人员来说,则承担着需求分析、技术支持的角色。
IT运维管理人员。这类人员主要的职责是通过建立有效的管理模式,组织上述所有人员,管理好所有的管理对象,按质按量地向客户提供数据中心业务服务。这些人员应具备数据中心管理基本知识,了解与之相关的国内外管理标准,具备相应的流程建设与实施能力、良好的客户沟通能力和较好的财务知识。
2. 人员分工
数据中心在人员的分工上通常有两种做法:一种是职能支撑型的组织分工,另一种是流程驱动型的组织分工。
1) 职能支撑型分工模式
职能支撑型分工模式主要是把具备同样技能与类似工作目标的人员整合在一个部门当中,他们承担起数据中心的部分职责,部门内的成员向部门领导汇报,部门领导向中心领导汇报,类似于管理学中的“直线-职能型”的组织分工。数据中心组织分工如图6-5所示。
图6-5 职能支撑型的分工模式
该种分工的优点为:既保证了企业管理体系的集中统一,又可在各级负责人的领导下,充分发挥各专业管理机构的作用。其缺点是:职能部门之间的协作和配合性较差,职能部门的许多工作要直接向上层领导报告请示才能处理,不仅加重了上层领导的工作负担,也造成办事效率低,组织内耗大等问题。这种组织适用于企业规模较小、业务系统相对稳定、项目工作不多、并为企业内部提供IT服务的数据中心。在这种情况下,数据中心的运维管理相对比较稳定,按此种方式组织的工作团队,可以较高效地开展工作。同样由于外部环境比较稳定的原因,许多工作的分工可以提前制定并加以明确,无需部门之间太多的沟通协调,从而避免了这种组织架构的最大缺陷之一——“跨部门合作”。
2) 流程驱动型分工模式
流程驱动型分工模式特征为既有按职能划分的垂直领导系统,又有按客户(项目)划分的横向领导关系的结构。其中,垂直领导侧重于人员与能力培养的管理,横向领导侧重于与客户服务、项目工作相关的管理。这种分工模式从组织的角度去看,可以看到企业内存在不同的职能部门与人员,这些人员是如何支持到不同的项目虚拟团队当中,如图6-6所示。
这种分工模式的优点在于,可以改进“职能支撑型分工模式”横向联系差、缺乏弹性、客户/项目关注程度不高的问题。它的特点表现在围绕某项专门任务、或某个客户成立跨职能部门的专门机构上。例如,组成一个专门的客服团队去从事该客户服务相关的工作,在系统设计、系统集成、系统上线、系统运维各个不同阶段,由相关部门派人参加,力图做到条块结合,以协调有关部门的活动,保证任务的完成。这种组织结构形式是固定的,人员是相对不固定的,任务完成后就可以离开。人员的调动主要依靠相关工作流程,各部门人员在不同的流程中承担相应的角色职责,通过在流程中不同角色的工作来实现这种虚拟团队的合作。此外,由于这种分工模式基于多项目、多数据中心管理,故新增项目或数据中心不会对组织带来太大的影响。
这种分工模式的不足为:项目负责人/客服经理的责任大于权力,因为参加项目的人员都来自不同部门,隶属关系仍在原单位,只是为“会战”而来,所以项目负责人对他们管理困难,没有足够的激励手段与惩治手段,这种人员上的双重管理是矩阵结构的先天缺陷;由于项目组成人员来自各个职能部门,当任务完成以后,仍要回原单位,因而容易产生临时观念,对工作有一定影响。
这种分工模式适用于客户种类较多、服务要求不一致,数据中心较多的企业类型。但前提在于要在企业内部建设起较好的管理流程与人员激励机制,且垂直机构有较强的人员培养能力。
3. 人员管理
考虑到人员管理对数据中心运维管理相当重要,因此需要针对企业用人的生命周期,结合一些安全的控制来建立对数据中心人员的管理体系。
6.2.3. 运维管理的流程要求
数据中心建立的管理流程除应满足数据中心自身特点外,还应能兼顾客户、管理者、服务商与审计机构的需求。由于每个数据中心的实际运维情况与管理目标存在差异,数据中心需要建立的流程也会有所不同。为能让读者对数据中心运维管理流程可能涵盖的范围有一个较为全面、规范的了解,本节以基于ISO20000、ISO27001、ISO9001和ITIL等标准要求而建立的商业数据中心为例,介绍数据中心在运维管理流程建设方面的要求。
1. 运维管理流程的范围
数据中心管理框架应包含以下七个管理领域:
(1) 体系管理平台:以ISO9001质量管理体系框架搭建的管理平台作为管理接口。管理层通过这些流程制定管理方针目标,测量目标的执行,监督流程管理效果,执行PDCA(即Plan、Do、Check和Action)循环,以改进数据中心绩效,管理数据中心各类资料文件。
(2) 资源管理域:包含数据中心内部人员、网络、设备、基础设施、环境等资源的管理流程,是数据中心统一管理的内部资源。
(3) 服务管理域:包括与客户交互的相关流程文件,是数据中心与客户的管理接口。
(4) 服务支持管理域:包括数据中心内部运作过程中的事件、问题、变更、发布处理流程等。
(5) 服务交付管理域:数据中心财务管理、服务的策划和变更、可用性管理、容量管理、业务连续性管理等方面的管理内容。
(6) 资源信息管理域:包括数据中心的信息资产管理、配置管理、输入/输出管理、风险评估等工作的管理。
(7) 厂商管理域:包括服务商管理的相关流程,是服务商与数据中心管理的接口。
以上7个管理域所构成的管理体系框架内的流程,按照ISO9001标准的要求被划分为4阶文件。
第一阶文件是“手册”,包含体系管理平台部分的全部文件。用于管理层对整个管理体系进行管理,制定方针目标、进行管理评审等工作。
第二阶文件是“指南”,该阶文件根据数据中心各部门的职责规定了某一具体业务的流程,并涵盖了除“体系管理平台”外其余6个管理域的文件。公司管理层可以通过这一阶文件规定各部门的工作范围及业务在各部门间的流转过程。
第三阶文件是“工作指引”,是数据中心各部门根据第二阶文件要求编写的具体部门的具体业务操作手册。同样涵盖了除“体系管理平台”外其余6个管理域的文件。该阶文件是数据中心各部门管理其内部工作的重要依据,也是员工执行管理体系的指导文件。
第四阶文件是“支持性文件”,包括支持业务流程运行的各类表单、技术文件。该阶文件记录数据中心各项业务流程运行的具体情况,还可作为体系运行结果的直接证据。
2. 体系管理平台
体系管理平台用于管理层对整个管理体系进行管理,制定方针目标、进行管理评审,持续的改进数据中心的各项流程制度。它是以ISO9001质量管理体系为基础搭建的管理整个数据中心运维管理体系的管理平台。主要作用有两项:
(1) 为数据中心的管理层提供管理整个数据中心运维体系的界面。数据中心通过管理平台内的流程,进行方针、目标的制定、企业内部资源的分配、流程文件的修订发布、管理流程执行效果的审核、管理评审、运维数据的收集评审、执行持续改进运维体系的措施、调整管理体系框架等工作。
(2) 为外部审核机构及客户了解数据中心的管理体系框架提供参考。
体系管理平台的文件主要包括8个,分别是:
(1) 管理手册:描述管理体系的框架结构、执行范围、组织结构及各部门的主要职责。
(2) 适用性说明:描述管理体系所遵循标准的适用条款及不适用条款的说明。
(3) 文件管理手册:用于规定数据中心管理体系内的文件修订、发布、废止、文件版本控制、文件标示控制、文件保管的规定、文件的废止销毁流程。
(4) 记录和资料管理手册:用于规定各类文件资料的保密等级及使用权限控制规定、查阅权限及保密资料的查阅申请流程、记录资料的保管规定(例如,保管期限、保管部门、记录资料的作废、销毁规定等)。
(5) 内部审核手册:规定了数据中心进行内部管理体系审核的周期,审核范围,内部审核员的选用方式,执行内部审核的流程,各部门在内部审核中的职责,审核后的纠正预防措施的制定、执行工作,纠正预防措施执行效果的监督检查工作。
(6) 纠正预防措施手册:用于规定整个管理体系在审核、管理评审过程中发现的需改进工作的纠正预防措施的制定、执行、监督检查工作的流程,以确保纠正预防措施被有效落实。
(7) 管理评审手册:用于管理层评估管理体系的运行效果,评估公司各项方针指标的执行情况,修订方针、目标,适时修订体系文件。
(8) 不合格控制手册:规定了服务不合格的概念及发生服务不合格后的处理方法。
3. 资源管理
数据中心资源管理所涵盖的范围很广,包括环境管理、网络管理、设备管理、软件管理、存储介质管理、防病毒管理、应用管理、日常操作管理、用户密码管理和员工管理等。
1) 环境管理
数据中心环境安全管理的重点在于如何根据不同区域的特点使用不同的安全管控和出入原则。对重点的区域可以选用先进的安全设备,使用严格的进出管理控制制度进行管理。
在制定数据中心环境管理相关文件时,通过对各区域内所存放的信息资产的等级进行分析,将数据中心划分成不同类别的管控区域和安全区域。建议至少划分为3类区域:公共区域、办公区域、安全管制区域。
(1) 公共区域:这些区域通常用于数据中心生活与展示的配套区域。该区域允许员工及获准进入数据中心的第三方、客户在遵守相关制度的前提下自由进出。
(2) 办公区域:数据中心内存放日常行政办公信息处理设备和其他办公设备,开展日常工作的区域。这类区域的进入通常需要办理相关的进入申请,配备有视频监控系统。
(3) 安全管制区域:数据中心内存放核心信息处理设备和供配电等基础设备,开展一线服务工作的区域。这类区域严格限制人员设备的进出,有先进的门禁及监控系统以确保信息系统安全。
在编制环境管理相关流程时应考虑人员进出的要求,还应考虑设备和物品进出的流程。设备和物品的进出应得到正式的审批,特别是对于安全管制区域所有的IT类设备、存储介质应重点控制。
2) 网络管理
网络作为数据中心重要的资源,应制定相关流程予以控制。建议网络管理流程包括如下管理内容:
(1) 网络拓扑结构:应明确网络的拓扑结构,创建网络拓扑结构图,并在网络结构变化时及时更新拓扑图。网络拓扑结构的变化应有记录并得到适当的审批,应有专门的人员负责网络拓扑结构的调整。
(2) 网络的访问管理:应将网络划分为不同作用的网段,例如办公网、生产网、管理网,公共网络。规定有权访问各类网络的设备和人员,明确网络接入的申请、审批流程和终止接入的流程,做到网络接入、终止接入过程受控,有专门的人员负责网络接入和终止接入的管理工作。
(3) 网络系统日常维护流程:应有专门的工作指引用于指导网络设备的日常维护,日志的备份、配置信息的备份。
3) 设备管理
数据中心的设备管理主要包括对设备的固定资产管理,设备维护管理等。数据中心在起草相关流程文件时应关注以下几点:
(1) 编制设备清单:明确设备的所有者、管理维护人员或部门、开始使用的日期、设备的重要等级等信息。此类信息最好悬挂或张贴于设备上或设备周边的醒目位置以便于管理。
(2) 制订设备的维护计划:规定具体设备的维护日期、维护人等信息,并由专人负责按照维护计划进行维护或联系、督促服务商执行维护。
(3) 将设备按重要等级进行分类:设备按照等级分类,并按不同的设备重要等级制定不同的管理策略,最大限度的确保重要设备的运行。
4) 软件管理
数据中心软件管理通常需要关注以下三项内容:
(1) 计算机系统安装软件的管理:对于数据中心的办公用计算机、监控用计算机和生产用计算机来说,其安装的软件应该受到严格的控制,避免员工随意安装软件。从软件管理角度,数据中心应建立可安装软件的认证工作,通过对软件使用的分析建立一张可安装软件的清单,对于清单范围外的软件不允许安装。对于监控、生产用的计算机及可连入生产网的计算机,其安装的软件需经过认证,并对所安装的软件进行记录,定期检查是否存在使用其他软件的情况。
(2) 软件维护及补丁管理:随着各种利用安全漏洞的病毒和恶意程序的增多,软件维护和补丁的更新工作也显得极其重要。对于软件补丁的安装管理应做好以下几项管控工作:补丁的测试、补丁的发放和安装、版本控制,建议补丁的管理由专人负责。
(3) 数据中心软件许可证的管理:随着知识产权意识的提高,是否使用有合法许可授权的软件已经成为越来越多数据中心和客户关注的问题。软件许可证的管理要作为数据中心的一项重要工作。其重点在于管理数据中心所拥有的合法软件许可证,确保在许可证许可范围内使用软件,确保软件的安装有记录可查。
5) 存储介质管理
数据中心经常面临大量的介质管理工作,介质管理工作的成功与否直接影响数据中心的信息安全。一个良好的介质管理工作应包括以下几方面的内容:
(1) 空白介质与有数据介质保存方式的规定:两种介质分开保存并有明显标示以示区别,同时应明确介质的保存地点,做到介质统一保存。
(2) 应制定统一的介质编号、标示原则:对介质作统一的编号标示,便于介质管理。
(3) 有条件时建立介质管理员制度:确保介质的专人管理,可减少介质管理的混乱。
(4) 有数据介质的领用查阅应得到控制:介质领用、报废应有适当的审批过程。应规定清除报废介质内残余数据和销毁处理报废介质的流程,避免信息泄露。
6) 防病毒管理
随着计算机病毒的日益泛滥,防止数据中心的生产设备、办公设备受到病毒侵害已经成为数据中心管理中不可缺少的工作内容。防病毒管理流程主要包括以下几个方面:
(1) 防病毒软件的管理:这里主要包括软件的安装、软件的设置、病毒库更新,软件版本控制、定期查杀病毒等。
(2) 病毒资讯:安排专人随时了解病毒最新信息,可能爆发的病毒类型、染毒后现象及对信息系统的影响,查杀方法等,并将这些信息通过定期通告和随时通报两种方式提醒数据中心相关人员查防。
7) 应用管理
广义的应用管理包括了数据库、中间件和应用系统本身在内的所有管理。它是绝大多数IT服务的“灵魂”。对于数据中心而言,挑战在于要同时管理大量复杂并且相互关联的应用。在这种情况下,除了要建立并运用同样适用于整个应用管理的ITIL流程外,几个适合数据中心应用管理的非常好的实践是:
(1) 将应用按重要程度进行分级。毫无疑问,理想情况下,所有的应用都应视为同样“重要”。但是在资源总是相对不足的现实情况下,必须区别对待。因此,在管理数目众多的应用系统时,基本的一点就是根据应用系统所提供的IT服务的重要性来对应用系统进行级别划分,并以此进行归类。这个级别的定义可以提供应用系统管理维护所涉及的多个流程,包括事件管理、问题管理、安全级别管理等最基本的信息。例如,一个一类应用(最重要)中断1小时和一个四类应用(相对最不重要)中断1小时,显然事件的等级是不一样的。所以,将应用按重要程度进行分级对于更为合理的分配资源有重要意义。
(2) 制作应用地图。首先要制作系统结构图和网络拓扑图,同样,还需要制作应用拓扑图,也称为应用地图。如图6-7所示,应用地图将应用按其功能类别划分为应用群,赋予不同的色块标识进行布局,使其便于统计和管理。一个应用占用一行或一列,在这行或者这列中,从首到尾,分别在每一格列出网络设备、服务器、数据库、中间件,最后是应用。每一格都可以再标示出具体的信息,如服务器的型号,数据库的版本,应用的名称和版本等,从而清晰地表现出各个应用相关的最主要信息。应用地图是快速了解总体应用部署情况,并在应用出现故障时,迅速定位原因,最为直观有效的形式之一。
图6-7 应用地图
(3) 了解应用数据流。虽然应用地图可以帮助快速了解应用和基础系统之间的关系,但是应用和应用之间的逻辑关系却没有展现。所以,对于数据中心而言,深入研究并绘制多个应用系统之间数据的流向是有必要的。应用数据流可以用图形,也可以用表格来表示。应用数目较少时,用图比较直观;但当应用数目超过一定量时,表格的形式就更为合适。但不管是用图,还是用表,应用数据流都应该至少包含以下几个元素:数据提供的应用系统名称(一般称为上游应用)、提供的数据类型、文件名称、时间、周期、本应用系统名称以及数据接收的应用系统名称(一般称为下游应用)等。如图6-8所示,针对任何一套应用系统,通过应用数据流图,可以很清楚地知道一旦停运,对其他应用系统的影响,这对于事件、问题或变更的影响评估有非常重要的意义。
图6-8 应用数据流图
8) 日常操作管理
数据中心的日常操作管理主要包括数据中心内部生产系统、办公系统、动力设备、环境保护、监测系统的数据处理、操作、维护的管理,以及数据中心信息处理设施、基础设施设备的软硬件运行情况巡检等监控工作的管理。
数据中心应该为每一台设备编制相应的操作工作指引。不建议以服务商或设备制造商提供的使用说明书或技术资料直接作为工作指引使用。工作指引编制应该满足数据中心实际使用的需要,用于指导操作人员在实际环境下操作设备的各项功能。
建议制定相关的巡检工作指引,规范数据中心的日常巡检工作。工作指引应规定巡检的周期、巡检项目、判定设备正常的标准、出现异常后的记录和汇报方式以及事件管理的接口。对巡检设备及内容做成检查表,巡检记录以表格形式呈现。
9) 用户密码管理
用户密码是数据中心运行的重要信息。用户密码的妥善管理可以减少数据中心运行的风险,提高数据中心运行的效率,确保信息的安全。
用户密码管理不完善的数据中心可能会遇到如下问题:
(1) 管理员密码丢失(忘记密码)。
(2) 登录时发现密码不正确,不知是谁改过。
(3) 需要对系统进行调整时发现管理员休假,但只有他有密码,所以系统调整工作只能暂停。
(4) 管理员偶然发现系统里有一个未知用户,经查发现该用户属于一个曾经在数据中心工作的人员,该人员已离职半年,但该用户没有被删除。
这些都是用户密码管理不完善的结果。一个良好的密码管理流程主要应包括以下几个方面:
(1) 用户密码分级管理:数据中心应根据密码的重要程度将密码划分为若干个等级,并对不同等级的密码采用不同的管理策略。
(2) 明确用户密码创建、变更流程:用户密码的创建、变更和使用应该有一套严格的流程进行控制。避免不受控的密码创建、变更和使用的行为。
(3) 用户密码的使用中应注意以下问题:
① 一个用户密码只能一人使用,避免出现几人共用一个用户密码的现象。
② 用户密码的使用和生成应由不同人员分别进行,避免密码使用者私自修改密码。
③ 密码必须定期修改。
④ 密码的强度需要事先被定义。
(4) 密码的保管:对于重要密码,除在用户处保留外还应在适当的地点另外保留密码副本,以避免由于密码遗忘、丢失对数据中心运行造成严重影响。此外,建议使用密码信封管理密码。当密码保存在密码信封后,密码信封本身的制作、保存、更新应制定相应流程,以确保密码信封的管理是受控和安全的。
(5) 用户密码的撤销:数据中心应建立一套用户密码撤销删除的流程,重点加强离职人员及工作调动人员所用密码的撤销管理。
10) 员工管理
员工作为数据中心重要的资源需要进行有效管理。数据中心的员工管理流程应包括:
(1) 员工招聘、任用流程。明确员工招聘任用的流程,明确签订劳动合同和保密合同的过程。
(2) 员工培训流程。数据中心属于技术密集型组织。由于IT领域新技术、新产品层出不穷,所以确保员工获得相关的技术和能力培训显得至关重要。应规定员工接受培训的流程,员工培训主要包括上岗培训和日常培训。
(3) 员工离职及岗位调整流程。员工离职或岗位调整后,应完成各种工作交接,并应收回各类技术资料、系统权限、网络权限、出入证件、门禁系统权限。
4. 服务管理
1) 服务水平管理
服务水平管理是ISO20000、ITIL的重要组成部分,也是数据中心管理的重要组成部分。服务水平管理主要通过SLA(服务水平协议)/OLA(运维水平协议)/UC(支持合约)来协调IT服务各方之间的关系。服务水平管理主要管控如下活动:
(1) 识别客户需求:制定与客户沟通的相关职责,获取客户需求。完成SLR(服务级别需求), 作为制定SLA的重要依据。
(2) 定义服务项目:在确定SLA后,服务级别管理人员需要根据SLR总结出满足客户需求的服务项目,并形成服务描述单和服务质量计划。
(3) 签订协议:服务级别经理组织签署服务支持合同和运作级别协议,签署SLA。
(4) 服务级别的监控和报告:编写流程对服务级别协议执行的效果进行监控并形成报告。
(5) 评审和改进:服务级别经理应评审服务级别协议执行状况并作相关改进计划。
2) 业务关系管理
业务关系管理流程包含至少3个部分:服务评审、客户满意度调查、客户抱怨管理。
(1) 服务评审:与客户进行定期或不定期的针对服务提供情况的沟通。每次的沟通均应形成沟通记录,以备数据中心对服务进行评价和改进。
(2) 客户满意度调查:客户满意度调查流程主要包括客户满意度调查的设计、执行和客户满意度调查结果的分析、改进4个阶段。数据中心可根据客户的特点制定不同的客户满意度调查方案。
(3) 客户抱怨管理:客户抱怨管理流程规定数据中心接收客户提出抱怨的途径,以及抱怨的相应方式,并留下与事件管理等流程的接口。应针对客户抱怨完成分析报告,总结客户抱怨的原因,制定相关的改进措施。在实际工作中,有些重要客户的抱怨或客户抱怨的严重问题对数据中心影响较大。为及时应对客户的抱怨,应该规定客户抱怨的升级机制,对于严重的客户抱怨,按升级的客户投诉流程进行相应处理。
3) 服务报告管理
服务报告管理流程旨在向客户和管理者提供与服务相关的数据和信息。在服务报告管理流程中应明确以下几个要素:
(1) 服务报告各类数据的获取途径。做到一类数据只能由一个职能部门提供。
(2) 服务报告的内容定义。应确保和管理层、客户就相关服务报告的内容达成一致。
(3) 服务报告的提供周期。应该明确服务报告的提供周期,具体周期可根据客户或管理层的要求定义。
(4) 明确服务报告的制作部门和审批途径。
5. 服务支持
1) 事件管理
事件管理主要管控引起或可能引起服务中断或服务质量下降的不符合IT服务标准操作的活动。这里的事件不仅包括软硬件故障,也包括服务请求。当处理多个事件时应根据事件的影响、紧急程度、解决事件的难易决定事件的优先级。如在协议时间内无法解决事件还应考虑事件的升级流程。
事件管理流程与问题管理、服务水平管理、变更管理、配置管理有着复杂的联系。在制定数据中心的事件管理流程时应充分考虑事件管理与这些流程的关系和接口。下面通过事件管理流程简图来简单介绍事件管理的过程,如图6-9所示。
首先是事件的发起,在这张流程图中,数据中心的事件发起主要包括3个方面:客户请求、数据中心自动监控系统提供的报警、数据中心日常巡检中发现的异常。
在事件发生后,事件记录员首先记录该事件。在事件管理流程中应规定记录事件的内容,如果数据中心没有使用ITSM的电子化工具,应通过表格形式记录事件内容,表格的具体样式、内容,可根据实际业务特点设计。
在事件记录员记录事件后,事件经理可根据事件记录对事件进行初步支持和事件分类,在这一步,事件经理需要对事件的紧急程度、重要等级、事件影响和处理难易进行初步分析,由此确定事件的优先级。把事件设计的配置项关联到配置管理数据库(简称CMDB,指记录每个配置项(CI),以及不同配置项之间重要关联详情的数据库),分配事件处理任务到相关受理人员。
在事件经理分配任务后,事件受理员需对事件进行分析和处理。处理事件时可参考问题管理的相关信息。
在事件分析并给出解决方案后,进入事件的解决过程。事件的解决通常需要通过变更管理流程进行。所以,这一步需要留下变更管理的接口。在处理完事件后,需要和问题管理交互信息。
当事件确认解决后,由事件记录员关闭事件。
2) 问题管理
问题管理流程是通过调查和分析IT基础架构的薄弱环节,查明事件产生的潜在原因,并制定解决事件的方案和防止事件再发生的方案。与事件管理强调处理速度不同,问题管理是强调查处事件的根源,从而制定恰当的解决方案,防止类似事件再次发生。
通常问题管理与事件管理、变更管理、配置管理都有很紧密的联系。下面以问题管理流程图(如图6-10所示)为例,介绍问题管理的主要活动。
数据中心问题管理部门通过对事件等信息的分析提出问题,并由问题管理员记录该问题。
问题经理对问题进行分析和处理。该部分工作主要包括以下4项:
(1) 将问题关联到事件管理流程记录的相关事件。
(2) 将问题关联到配置管理项。
(3) 设定问题的优先级。
(4) 将问题分配给问题受理员处理。
问题经理将问题分派给问题受理员后,问题受理员通过分析,查找问题的原因并制定相关解决措施。
当问题的原因被发现并得到了解决措施后,应由问题经理管理问题,同时应通过变更管理进行相关变更,并通过配置管理流程更新相关配置项。
问题管理的最后一步是更新知识库。
问题管理流程本身并不复杂,但很多数据中心都不能很好地实施问题管理流程。通常大多数数据中心在实施问题管理流程时遇到的最大“问题”就是“找不到问题”,从而导致问题管理流程不能被真正实施。因此,建议采用如下方法发现数据中心的问题:
(1) 充分利用服务报告,从报告中未能满足SLA的情况入手发现问题。
(2) 充分利用事件管理流程,把具有相关性的事件作为问题管理的研究对象。
(3) 利用系统管理工具的监测数据发现问题。
(4) 通过客户满意度调查、客户座谈、客户反馈找出问题。
3) 变更管理
变更管理是在最短的中断时间内完成基础架构或服务的任何一方面变更的流程。通常情况执行了一个问题管理流程、事件管理流程、服务水平管理流程后,需要通过变更管理实施事件管理流程或问题管理流程所产生的事件处理方案或问题解决措施。
变更管理在施行中应注意通过合理的计划和周密的准备把中断业务或服务的时间减少到最小。
下面就以变更管理流程图(如图6-11所示)为例,介绍变更管理的主要活动。
变更流程的启动:通常,事件管理流程、问题管理流程、服务水平管理流程会启动一个变更管理流程。变更经理需要对变更请求进行审批。在这个阶段,变更经理主要对变更请求进行复核,并确定变更的优先级,然后将变更分派给相应的变更受理员进行变更操作。
变更受理员根据变更的情况制定变更执行的详细计划,这些计划应尽量详细以减少由于变更时间过长而对服务的影响。应在制订变更计划的同时制订一个变更失败后的回退计划,以避免一旦变更失败对数据中心运维造成较大影响。
变更经理需要对变更受理员制定的变更计划进行审批,然后交由变更实施人员进行实施。变更实施后,变更受理员应对变更实施的结果进行检查,以确认变更执行有效,并将结果通报变更经理审批。变更经理审批完变更后,变更受理员可以关闭该变更流程。
6. 服务的交付管理
1) 容量管理
容量管理主要关注企业与IT基础设施之间的关系。这个流程不仅要评价现有服务的能力,还要分析和预测数据中心未来发展的需要。
容量管理流程应着重规范以下3个方面的内容:
(1) 业务能力管理:关注数据中心未来业务对IT服务的需求,并确保这种未来的需求在制订业务能力计划时得到充分的考虑。
(2) 服务能力管理:关注现有的IT服务能力、品质能否达到服务级别协议中所确定的服务目标。
(3) 资源能力管理:关注IT基础架构内每个组件的能力和使用情况,并确保IT基础架构的能力足以满足支持服务级别协议被履行。
数据中心可通过编制能力计划的形式完成以上工作内容。
2) 业务连续性管理和可用性管理
在当今以服务为导向和以客户为中心的业务环境下,维持数据中心的持续运维对数据中心具有重大意义。尤其在发生灾难的情况下如何确保数据中心的持续运作是数据中心管理人员必须关注的问题。
业务连续性管理就是负责数据中心预防灾难、增强IT基础架构在灾难发生后的恢复能力的管理流程。它着重确保数据中心在诸如地震、洪水、火灾、失窃、恐怖袭击、网络攻击、大范围停电等灾难后尽快恢复运作,减少因数据中心停止运行而带来的损失。
数据中心的业务连续性管理流程主要包括制定业务连续性目标、业务影响分析、灾难恢复应急预案三方面内容:
(1) 制定业务连续性目标:它是数据中心制订业务连续性方案,进行风险分析的重要依据。确定数据中心发生灾难后可接受的业务停顿时间,是其主要内容。
(2) 业务影响分析:指对可能造成数据中心业务中断的灾难事件进行分析,重点是分析其对应的场景、业务替代难易程度、对相关业务持续的影响、对数据中心整体发展的影响、灾难事件所发生的概率等。目的是筛选出最可能影响到数据中心持续运维的灾难事件场景,为制定应急预案确定前提条件。在进行业务影响分析时应关注:
① 场景的确定:从替代性风险、中断与否、影响程度、发生概率四个方面对不同场景的不同原因进行分析,找出风险值最高的场景原因,为灾难恢复计划的制订确立场景。
② 可接受风险值的确立:在综合衡量成本与各场景的风险值后,决定数据中心对风险值的接受程度,凡风险值高于可接受程度的场景均需制订灾难恢复计划。
(3) 灾难恢复应急预案:应急预案是为确保发生灾难事件后,尽快消除紧急事件的不良影响,恢复业务的持续营运而制定的应急处理措施。应急预案的注意事项:
① 根据业务影响分析的结果及灾难场景的特点编写应急预案,确保当紧急事件发生后可维持业务运作,在重要业务流程中断或发生故障后在规定时间内恢复业务运作。
② 应急预案除包括特定场景出现后各部门、第三方的职责与任务外,还应评估复原可接受的总时间。
③ 应急预案必须经过演练,使相关责任人熟悉应急预案的内容。
3) 财务管理
IT服务的财务管理着重负责将IT服务运作中所包含的所有资源进行货币化管理。该流程主要包括预算编制、IT核算、服务计费3个主要内容:
(1) 预算编制:预算编制是数据中心用于预测和控制费用开支的一个子流程。IT预算是由定期协商已设定的目标和对当前预算执行情况进行日常监督两部分组成。
(2) IT核算:IT核算是指对IT服务运作过程中和对服务相关的成本进行确认、计量和报告的过程。
(3) 服务计费:服务计费是负责向使用IT服务的客户收取相应费用的子流程。服务计费包括资费对象的确定和计费方法的选择。
7. 服务的资源信息管理
1) 信息资产管理
信息资产管理是数据中心实行信息安全管理的重要基础,通过该工作可以让数据中心管理者清楚地知道自己的管理对象,以及这些管理对象的重要程度。这里提到的信息资产指的是数据中心内部与信息安全相关的实体与非实体资产。信息资产通常包括:硬件、软件、数据、文档、人员、商誉、服务商等。在考虑信息资产管理流程的建设时,需要关注以下几项内容,包括:识别信息资产、信息资产的分级管理、信息资产清单等。
2) 配置管理
配置管理的目标在于,确保只有经过授权的组件才能在 IT 环境中得到应用,并对所有变更调整实施记录和跟踪。在配置管理中最基本的信息单元是配置项,所有的软硬件和各种文档,如服务器、环境、设备、网络设备、台式电脑、移动设备、硬盘、内存、CPU都可以是配置项。配置管理的流程主要包括配置管理规划与构建、维护配置数据模型与CMDB构建过程、配置项数据的维护、配置数据的审计等。
3) 风险评估管理
风险评估管理流程是对数据中心信息资产的风险进行识别,制定弱化或消除风险的方案,并实施该方案的管理流程,也是ISO27001标准对数据中心管理的要求。制定这一流程可以使数据中心明确其风险分析方法和风险分析过程,并明确如何将风险分析结果落实到数据中心的管理制度之中,从而减小风险对数据中心信息的影响,提高信息的完整性、可用性、机密性。风险评估管理的工作主要包括:风险识别、制定风险可接受水平、选择安全控制措施三项工作。
4) 输入输出管理
数据中心各类保密信息的输入/输出应得到有效控制。数据中心应制定相关流程管控保密信息的输入/输出流程。该流程所涉及的重点是对保密信息的识别和管理。保密信息必须有专人管理。保密信息的获取应得到批准,并从固定的渠道输入/输出,做到信息流动受控。
8. 服务商管理
数据中心各类服务商的服务品质对数据中心向客户提供服务的品质有一定的影响。对于数据中心而言,服务商的管理流程至少应包含以下几个方面。
1) 服务商的选择
在服务商选取原则方面,通常情况下应考虑该服务商在相关服务领域的资质、经验、运维情况及满足数据中心服务要求等方面的能力。
服务商选择的内部流程方面,通常应避免仅有一个部门负责服务商的评估工作,如果有可能,数据中心应至少由两个相关部门组成评估小组,从不同的方面提出对服务商的选择要求,并做评估。数据中心可以把对服务商的要求制成评分表用于对候选服务商打分,最后根据评估打分的情况确定服务商。
2) 服务合同的签订
服务合同的签订是服务商管理的重要一环,数据中心应拟定签订服务合同的流程。如果服务商可能接触到数据中心的重要信息,还应和服务商签订保密合同以保护数据中心重要信息的安全。
3) 服务商的定期考评
服务商开始为数据中心服务后,数据中心应定期对服务商的服务质量进行考评。考评周期可以根据服务商提供服务的性质和工作量选择,但一个服务合同期内至少应进行12次服务考评。
数据中心应根据服务商提供的服务水平协议考评服务商的服务质量,有必要时还可以听取客户对相关服务的满意情况,从而对服务商的服务进行评估。
服务商的考评结果应作为服务商续签合同、是否继续履行合同的依据,也可以作为督促服务商持续改进的依据。
4) 服务商的合作关系管理
服务商的服务质量对数据中心的服务质量有着很大的影响。所以与服务商良好合作,共创共赢局面显得尤为重要。为能建立并巩固数据中心与服务商之间的关系,需要数据中心将一些服务机会研讨、服务质量评估等工作纳入到日常的服务商管理流程当中。
6.2.4. 运维管理的信息化要求
对数据中心运维管理产品的要求始于对数据中心信息系统的总体规划。这种规划无论大小、深浅都应始终坚持从数据中心的运维战略、业务需求、风险控制、成本效益等目标出发,同时还应清醒地认识到两个常见的决策误区:一是认为采用了高端的运维管理产品就代表了高质量的运维水平。对于这一认识毋庸赘言,从上述对人员、流程、合作伙伴的要求就可以看出,产品仅是一个方面而不能代表全部;另一个误区是不重视运维管理信息系统的建设,认为在信息系统建设上的投入不能带来直接的价值。对此,从专业化的数据中心运维角度来看,数据中心信息化能够实实在在带来的好处可以简单概括为以下几个方面:
(1) 提高效率、降低成本。一个运维管理产品的投入使用往往可以带来十几倍以上的生产力提升和相应的成本降低。业界的普遍看法是:运维管理信息系统其实就是数据中心业务的生产系统。
(2) 使运维风险保持在可以控制的水平。数据中心如果不重视对风险的控制就如同在高速公路上行车不系安全带一样危险,而危险一旦发生想继续行驶可就难上加难了。
(3) 改进服务质量提升竞争力。数据中心的业务可以概括为:通过运行IT系统来向客户提供服务。没有信息系统的支撑来运行IT系统就如超市里仍然采用手工结账一样不能让顾客满意。
在随后的内容中,将针对数据中心运维管理产品中处于核心地位的监控管理产品(包括:基础设施监控产品和IT监控产品)和IT服务管理产品进行更进一步的介绍,而介绍的角度主要从选择的要素与系统部署架构出发。
1. 基础设施监控管理系统
随着计算机技术的发展和普及,计算机系统数量与日俱增,其配套的环境设备也日益增多。数据中心机房已成为各大单位的重要组成部分。数据中心机房的环境设备(供配电、UPS、空调、消防、安防等)必须时时刻刻为计算机系统提供正常的运行环境。一旦数据中心机房环境设备出现故障,就会影响到计算机系统的运行,对数据传输、存储及系统运行的可靠性构成威胁,如事故严重又不能及时处理,就可能损坏IT设备,造成严重后果。
1) 基础设施监控产品的选择要素
(1) 技术先进性。
(2) 系统高可靠性:系统硬件和软件均采用技术成熟的产品。
(3) 系统运行管理方便:界面操作简单,技术支持能力强,承建单位技术实力强,服务完善。
(4) 系统可扩展性能强:模块化结构有利于扩容与扩展。
(5) 系统兼容性:支持世界厂家提供的智能设备,实现完美的监控。
(6) 投资少:系统选型具有高性价比。
(7) 建设时间短:在较短的时间内完成系统的安装调试。
2) 基础环境监控管理系统部署模式
针对基础环境监控的部署一般采用采集处理、传输数据、监控展现和管理三层模式。下面以多数据中心基础环境监控管理为例说明,如图6-12所示。
图6-12 数据中心机房基础设施监控管理
(1) 数据采集和处理:各数据中心通过对基础环境和设施的数据采集与处理在本地实现监控。
(2) 传输层:各数据中心通过传输层将采集和处理的数据传送到需要的管理中心,如果是接入到Internet网络必须通过防火墙进行网络设定。
(3) 监控展现和管理:通过传输层,将数据中心采集和处理的基础设施的监控指标进行集中管理,生成报表和报警。
2. IT系统监控管理系统
为了满足企业对IT服务要求的不断提高,不仅在可用性上,同时也要在资源利用率、可扩展性、容量管理等方面满足用户需求。数据中心应建立能对操作系统、应用系统和网络状况等进行故障监测和性能管理的监测系统。
通过此类系统,一方面可以对数据中心的服务器及其应用进行实时监测,另一方面也可以为系统管理人员提供完善的监测和报警平台以及可用性、容量管理的实时报告。最终能帮助系统管理人员快速定位并查找故障根源,有效降低由于服务器应用系统发生故障或失败而导致的风险,提高数据中心运维的服务质量,保证数据中心的服务器及其应用能7×24持续正常、稳定的运行,并根据客户需求的不同,提供5×8、7×12的分级服务。
1) IT系统监控产品的选择要素
虽然业界有许多满足此类需求的解决方案,但是如何才能找到一套符合企业运营管理特点的IT系统监控产品呢?在此,可以从以下几个方面评估产品功能,包括:
(1) 能否满足跨操作系统、远程监测管理的要求;
(2) 能否实现对服务器、网络设备、数据库、中间件、甚至应用系统的监测;
(3) 能否实现远程报警等多种报警方式;
(4) 能否提供丰富的报告、资源统计、分析等;
(5) 在进行数据采集时能否支持代理与无代理相结合的方式;
(6) 是否具备方便实用的用户管理功能;
(7) 能否提供开放的API接口;
(8) 是否能够保障监控的安全性。
2) IT系统监控管理系统部署模式
IT监控系统的部署模式一般分成被监控层、采集层、数据处理层、服务展现层、服务管理层。IT监控系统部署模式如图6-13所示。
(1) 被监控层:被IT监控系统监控的对象,如网络设备、系统资源、应用资源、数据库资源。
(2) 数据采集层:根据需求采集监控对象的资源数据,并进行规则设定。
(3) 数据处理层:根据需要对采集的数据做进一步处理、保障数据的完整性,对数据进行选择性存储。
(4) 监控服务展现层:将IT监控系统处理后的结果,展现给运维管理人员和关注IT资源的相关人员。
(5) 服务管理层:与服务管理的API接口,将展现的故障、问题,以服务管理的方式进入服务管理系统,实现由事件到服务的转换。
3. IT服务管理系统
作为一个数据中心,如何管理各项与IT运维直接相关的工作,如何让这些工作遵循一些国际非常好的实践,如何提升IT运维过程中的工作效率与知识积累能力,部署一套符合ITIL标准ITSM工具平台,并在其上建立配置管理数据库和知识库,无疑是一个相对比较成熟解决方案。通过这样的IT服务管理平台,可以帮助数据中心以“服务”的方式进行信息技术管理,很好地解决流程、人员、技术之间的关系。
1) IT服务管理产品选择原则
IT服务管理系统的建设实践证明:无论是对内还是对外提供服务,无论是单一的数据中心还是多地域分布的数据中心,选择产品时都应在遵循“集中建设、统一管理”的总体原则基础上,保证系统建设具有系统性、实用性、高效性、可扩展性,以及技术上的先进性、规范性和安全性。具体来说,所选择的产品应能满足以下建设原则要求:
(1) 应建立集中的统一服务管理平台,对流程服务质量、运行状况、工作流程等实现实时监控、集中管理。
(2) 对于为流程管理直接服务的基础信息,应采用统一规划、统一标准、统一控制的方式建设。
(3) 实用性和高效性原则。
(4) 安全性原则:应体现在拥有完善的身份认证和授权,具有数据备份、应急处理与灾难恢复等技术措施,具备完善的包含“用户、角色、对象、动作、许可证”的权限策略库。
(5) 可灵活定制原则:从技术架构、数据和应用架构方面等方面均能适应后续的定制要求。
(6) 高扩展性原则:既要满足现有和近期的性能要求,又要具备平滑扩展系统性能的能力。
(7) 易于集成原则:能够与IT监控系统、基础设施监控系统、消息通知系统、移动应用系统、集中报表系统、ERP系统、门户等进行集成。
(8) 灵活的报表技术:能提供统一化又能体现个性化的报表功能。
(9) 便于“统一规划、分步实施”:选择的产品应具有模块化逐步集成的能力。
(10) 产品厂商应具有强大的实力。
2) IT服务管理系统逻辑结构
IT服务管理系统逻辑结构如图6-14所示。
图6-14 IT服务管理系统逻辑结构
3) IT服务管理系统部署模式
IT服务管理系统的部署模式多种多样,取决于数据中心的业务发展战略和技术实现。图6-15为多数据中心IT服务管理系统部署。
图6-15 IT服务管理系统部署
6.3 数据中心运维管理测量
6.3.1. 运维管理成熟度的评估
数据中心运维管理成熟度评估工作是数据中心管理的重要内容。数据中心运维管理需要做到对自身的管理弱点、管理优势有正确和系统的认识。管理成熟度评估正是让数据中心了解自身管理现状,帮助数据中心根据管理弱点有针对性的开展管理改进的工具。开展管理成熟度评估将给数据中心带来如下好处:
(1) 使数据中心充分了解自身管理现状。
(2) 可以通过对不同时期管理成熟度的对比,发现数据中心既定管理措施的施行效果。
(3) 为数据中心下一阶段制定管理措施提供依据。
(4) 是数据中心进行管理持续改进的有力工具。
数据中心的成熟度评估工作主要可以按照以下步骤开展。
1. 建立管理成熟度评估模型
这项工作是管理成熟度评估工作的基础。它主要关注两方面问题:数据中心的管理领域有哪些?如何给这些管理领域打分?
关于管理领域的划分方法最简单的方法就是依照数据中心管理体系所参考的标准划分评估领域。例如某数据中心按照ISO20000建立的管理体系,在建立管理成熟度模型时就可以依据ISO20000标准所划分的管理域建立管理模型,即从服务的策划与实施、服务水平管理、服务报告管理、服务连续性管理、可用性管理、IT服务的预算和财务管理、容量管理、信息安全管理、业务关系管理、供方管理、事件管理、问题管理、配置管理、变更管理和发布管理等15个方面对数据中心的管理成熟度进行评估。
对于数据中心成熟度的评价标准,即打分原则,数据中心可以依照自身管理特点进行划分,在这里我们举一个评分原则的例子供读者参考。该打分方式从管理制度的管理策略制定、流程文件的制定、流程文件的执行、管理体系运行记录4个方面对每个评估领域进行打分。数据中心成熟度评价标准如图6-16所示。
图6-16 数据中心成熟度评价标准
2. 进行管理成熟度初评,取得基础数据
此步骤需要通过内部审核、现场调研、与员工谈话等方式了解每一项具体管理领域实际执行情况,并做记录,进行打分,最终形成管理成熟度评估报告。管理成熟度报告应该对管理体系运行中的优势与劣势进行充分分析,并有理有据的提出管理上的问题及改善方向供管理者参考。图6-17是某数据中心按照ISO20000管理标准进行的管理成熟度评估后,根据数据中心实际管理情况绘制的成熟度雷达图。从该图中可以看出该数据中心在问题管理、信息安全管理方面成熟度较低。管理者需要对这两个管理领域制定相应的管理措施。
图6-17 数据中心管理成熟度雷达图
3. 对管理上的弱点制定措施进行改进
管理者可以通过管理成熟度报告,针对数据中心管理弱点制定措施并进行改进。
4. 进行例行成熟度评估,并与前期的管理成熟度评估结果对比,从而调整管理方法
此步骤需要数据中心把管理成熟度评估作为一项定期工作来开展,这样数据中心管理才能得到持续的提升,对管理成熟度提升效果显著的措施要继续坚持落实,对管理成熟度提升效果不显著的措施要分析原因,必要时调整管理方法。
通过以上四点可以形成一个PDCA管理水平提升的循环模式,使数据中心的管理得到提升。
6.3.2. 运维管理认证的意义
数据中心根据相关管理标准建立了管理体系后,可以选择专业的管理体系认证机构对数据中心的管理体系构建和实施情况进行认证。通过管理体系的认证可以使数据中心获得如下好处。
1. 提高管理的科学性与全面性
数据中心通过按照某一管理流程规划管理体系并进行认证,可以在所认证的标准范围内规范数据中心的管理。通常情况下,标准是某个领域的专家和长期从事该领域工作的人士在经过充分的科学分析后结合实际的管理情况制定的。所以标准本身就是一个全面规范的管理框架。例如ISO20000是IT服务领域的科学管理框架,ISO27001是信息安全管理领域的科学管理框架,ISO9001是服务质量管理领域的科学管理框架。
按照这种科学管理框架建立的数据中心管理体系本身具有科学性和领域内的全面性。通过建立管理流程和进行管理流程的认证可以使数据中心的管理符合科学的管理框架。
2. 提升管理能力
数据中心拟定的管理体系能够通过认证机构的认证,并且获得认证证书,很大程度上证明了数据中心在相关管理方面的能力。同时,通过管理体系的导入,也从企业文化、人员意识、管理流程等各方面提升了数据中心的管理能力。
3. 督促数据中心维护管理体系
通常情况下,管理体系的认证证书是有有效期的,例如ISO27001的认证证书有三年的有效期,每隔三年认证机构会对数据中心的管理体系做全面的审核与评估,从而确认数据中心是否可以更新证书;此外每半年审核机构还会对数据中心进行一次持证复审,验证数据中心的管理体系是否有效运行。ISO20000,ISO9001等管理标准在证书的更新和持证审核方面的要求与ISO27001标准大致相仿,均存在定期的持证审核与到期换证管理。
所以,数据中心如果希望长期持有认证证书,就必须确保管理体系的有效执行,从而起到了督促数据中心长期有效的执行管理体系。
4. 持续提升数据中心的管理能力
目前绝大多数管理体系都包括持续改进的管理思想,并且在标准中体现了持续改进的步骤和要求。所以进行管理体系的认证,持续的运行管理体系本身也会对管理体系进行持续改进,且通过持续改进提升自身的管理水平。
5. 提高数据中心的竞争力
进行管理体系的认证能够提高数据中心在市场上的竞争力。这种竞争力的提高主要来源于两方面:
一方面,进行管理体系认证本身提高了数据中心管理的全面性和科学性,使其管理得到有效提升,能够向客户提供更好的服务,从而增加了数据中心的市场竞争力。
另一方面,数据中心获得的证书可以作为数据中心管理有效性的证明,向客户出示证书,可以提升客户对数据中心的信心,增加客户满意度。
6.3.3. 运维管理标准介绍
1. ISO9001标准简介
随着数据中心客户的增加、规模的逐步扩大、管理的深入,单一采用IT技术并不能解决数据中心管理的全部问题。数据中心的管理正在从IT技术管理向服务管理领域发展。如何提高数据中心的服务质量,如何使数据中心高效的运作,正在成为困扰数据中心管理者的难题。
《ISO9001质量管理体系-要求》为数据中心管理和提升服务质量提供了成熟有效的管理框架。ISO9001是迄今为止世界上最成熟的质量管理框架。它的第一版是在1987年由国际标准化组织(International Organization for Standardization,ISO)颁布的。1994年ISO对这一标准进行了第一次修订,2000 年进行了第二次修订,2008年进行了第三次修订。目前全球有161个国家/地区的超过75万家组织正在使用这一框架。ISO9001可帮助多种类型和规模的组织提高自身的管理水平。
ISO9001标准对数据中心管理的诸多领域均提出了管理要求。这些领域涉及:数据中心各部门的职责分工、管理者的责任、内部沟通、数据中心方针目标的建立,数据中心的人员管理、数据中心基础设施管理、数据中心环境管理、客户需求如何转换到产品或服务中、服务设计的过程,服务商管理、服务的提供过程、运维指标的监控、客户满意管理、数据分析、不合格的控制、服务质量改进、内部审核、数据中心各类文件及记录的管理等。这些管理领域涵盖大部分数据中心的实际运维情况。
ISO9001标准遵循管理科学的基本原则,强调运用过程方法,基于事实进行决策。ISO9001体系的运作过程比较复杂,在此仅作简单介绍。
ISO9001体系通过从客户及相关方获得的对数据中心运作、服务质量方面的要求作为输入。通过对这些输入的分析,数据中心可以通过内部资源管理、管理职责的管理、产品实现过程的管理、测量分析等流程实现数据中心服务及管理的持续改进从而获得客户满意度的提升和内部管理水平的提升。
ISO9001不仅为质量管理体系设立了标准,也为整合管理体系设立了管理平台。ISO9001与其他管理标准和规范兼容,例如ISO14001、ISO27001、ISO20000等。这些标准可以进行无缝整合形成完善的管理体系对数据中心进行有效管理。
2. ISO27001标准简介
数据中心是信息化的关键部门,其信息安全问题也开始引起业界广泛关注和高度重视。仅仅依靠安全产品和安全技术已不能完全满足数据中心信息安全管理的需求。数据中心的信息安全管理正在从以硬件、新技术为中心,向以技术管理和流程管理相结合的方向发展。《ISO27001信息安全管理体系-要求》为数据中心建立、实施、运行、监视、评审、保持和改进信息安全管理体系(Information Security Management Systems,ISMS)提供模型与相关要求。从认证机构的角度提出了评价企业ISMS的有效性与合理性的要求。它详细说明了建立、实施和维护信息安全管理体系的要求,指出数据中心该遵循的风险评估准则。
《ISO27001信息安全管理体系-要求》是国际标准化组织颁布的。该标准以英国标准协会(The British Standards Institution,BSI) 制定的信息安全管理标准BS7799为基础制定。BS7799包含两部分:分别为BS7799-1及BS7799-2。其中BS7799-1发展成ISO17799,主要是作为参考文件,提供组织实施信息安全的指南;BS7799-2发展成ISO27001,提供信息安全管理系统之建立实施与书面化的具体要求。目前全球已有5206个组织通过了ISO27001认证,其中中国内地有180家企业通过了该认证。
ISO27001标准以风险评估为基础,以安全控制点为管理范围,以此评估机构的信息安全管理需求;管理体系中提到的“信息安全”,是指保存信息的:
(1) 机密性(Confidentiality):确保只有获得授权的使用者,才得以存取信息。
(2) 完整性(Integrity):保障信息与处理方法的正确与完整。
(3) 可用性(Availability):确保获得授权的使用者在有需求时,能适时存取信息及相关资产。
ISO27001管理体系以信息安全为核心,通过建立信息安全管理体系方针,制定、实行、监控、改进流程这一PDCA循环,达到持续改进数据中心信息安全管理水平,使数据中心的管理体系可以不断适应客户与组织内部发展的需要。
该标准附录A还提供了具体实施信息安全管理所需的控制目标和控制点。这些控制点涵盖组织的“安全方针”、“与信息安全相关的内外部组织”、“信息资产管理”、“人力资源管理”、“物理环境安全管理”、“通信和操作管理”、“访问控制”、“信息系统获取、开发和维护”、“信息安全事故管理”、“业务连续性管理”和“符合性”,基本满足了数据中心对于信息安全管理的需要。
《ISO/IEC17799:2005信息安全管理实用规则》作为ISO27001的一部重要参考资料,主要从实施的角度提出了组织在建立信息安全管理体系过程中应该考虑的管理要求。该标准由15个章节、133个安全控制项组成,这些控点与ISO27001的附录A相对应,为组织建立ISMS提供了国际上的非常好的实践。该标准可作为组织通过ISO27001认证过程中的一个操作性标准,也可以作为企业自行评估或提高自身信息安全管理能力的一个指南性文件。
3. ISO20000标准简介
ISO20000是ISO在英国标准BS15000的基础上以ITIL为核心制定的IT服务管理国际标准。标准分为两个部分:
第一部分:ISO/IEC20000-1:2005信息技术-服务-规范。它表明了组织IT服务管理的要求和如何初始化、实施和维护IT服务管理。组织可以根据ISO/IEC2000-1:2005的要求单独认证组织内的IT服务管理体系。
第二部分:ISO/IEC20000-2:2005 IT信息技术-服务-非常好的实践。它为内部审核提供指导,并帮助服务提供者规划服务改进或准备基于ISO/IEC20000-1:2005的审核。
该标准于2005年末发布。截止到2007年年底全球有80余家组织通过了该认证。2009年3月全球通过ISO20000认证的组织达到了347家。可见近年来全球有更多的企业开始认识到该标准的价值。
数据中心可以通过取得ISO20000管理体系认证来获得在ITIL领域的认可,以此标准可构建一套适合数据中心自身发展的IT服务管理流程,同时也可借此确保所提供的IT服务符合最新国际标准。数据中心构建ISO20000体系的好处表现在:
(1) IT服务提供商能够更积极地响应以业务为主导、而非以技术为驱动的服务。
(2) 通过对内部资源的合理安排和合理计划降低向客户提供服务的成本。
(3) 将服务质量的管理融入到IT服务中,向客户提供高质量的服务。
(4) 提高组织机构工作流程的效率,以更高效、更有效的方式向客户提供服务。
(5) 向客户表明组织有能力提供国际水准的卓越IT服务,提高客户信心,在承接业务时获得竞争优势。
ISO20000是在ISO9000的基础上专为IT服务管理制定的标准,它将IT服务管理分为5个领域,这些领域分别是:
(1) 服务发布管理:这个领域包括ISO20000对组织在“容量管理”、“可用性和业务连续性管理”、“服务级别管理”、“服务报告管理”、“信息安全管理”、“财务管理”方面的要求。
(2) 控制过程:这个领域包括ISO20000对组织在“配置管理”、“变更管理”方面的要求。
(3) 发布管理:这个领域包括ISO20000对组织在“发布管理”方面的要求。
(4) 解决过程:这个领域包括ISO20000对组织在“事件管理”、“问题管理”方面的要求。
(5) 关系管理:这个领域包括ISO20000对组织在“业务关系管理”、“供应商管理”方面的要求。
ISO20000通过对组织的IT服务实施过程管理,使用PDCA方法来不断提高组织IT服务管理能力,使组织向客户提供更优质的服务。
PDCA方法可以适用于组织IT服务管理的所有过程,PDCA描述如下:
(1) 计划:建立符合客户要求和组织策略的交付结果所需的目标和过程。
(2) 实施:实施这些过程。
(3) 检查:根据策略,目标和要求监视并测量这些过程,并报告结果。
(4) 改进:采取措施持续改进这些过程的绩效。
4. ISO14000标准简介
ISO14000是一个环境管理系列标准,共有100个标准号。ISO从1996年以来,已正式颁布6个标准,分别是:
(1) ISO14001 - 环境管理体系-要求及使用指南。
(2) ISO14004 - 环境管理体系-原理、体系和支撑技术通用指南。
(3) ISO14010 - 环境审核指南-通用指南。
(4) ISO14011 - 环境管理审核-审核程式-环境管理体系审核。
(5) ISO14012 - 环境管理审核指南-环境管理审核员的资格要求。
(6) ISO14040 - 生命周期评估-原则和框架。
《ISO14001环境管理体系-要求及使用指南》,是针对全球性的环境污染和生态破坏越来越严重,顺应国际环境保护的发展,依据国际经济贸易发展的需要而制定的。它为数据中心提供了环境管理的依据,规定了环境管理的共同语言和准则的要求。
《ISO14001环境管理体系-规范及使用指南》于1996年由国际标准化组织发布第一版,该标准的最新版本是2004版。
随着社会对世界环境问题的关注,数据中心如何承担保护环境的社会责任成为了关注重点。ISO14001标准实施的目的是帮助数据中心实现环境目标与经济目标的统一,支持环境保护和污染预防,这是ISO起草和实施这一系列标准的根本出发点。实行ISO14001环境管理体系可以让您的数据中心获得如下益处:
(1) 向监管机构和政府证实您承诺遵守法律法规。
(2) 向利益相关方证实您致力于环保。
(3) 向客户和未来员工证实您采用了创新及前瞻式方法。
(4) 更好地管理当前和将来的环境风险。
(5) 潜在地降低公众责任保险成本。
(6) 提高声誉。
ISO14001是组织规划、实施、检查、评审环境管理运作系统的规范,该系统包含5大部分,17个要素。这5个基本部分包含了环境管理体系的建立过程和建立后有计划地评审及持续改进的循环,以保证组织内部环境管理体系的不断完善和提高。ISO14001环境管理体系参见表6-1。
表6-1 ISO14001环境管理体系
5. BS25999标准简介
无论是如地震、海啸、雪灾这样的重大灾难还是机房漏水、空调损坏这样的轻微事故,或者是人员误操作、断电、通信线路中断这样的意外,对于数据中心的连续运作都是重大的威胁。对于数据中心而言,由于承载本企业或客户的重要数据及业务系统,它的持续运行具有重要意义。如何确保数据中心的持续运行,如何确保数据中心在运行中断后迅速恢复运行,减少客户的损失是数据中心运行管理的重要内容。
可以从IT技术手段上,例如通过硬件设备、通信线路、电力的冗余设计,来减少发生业务中断的可能。但发生灾难后企业的内部运作应如何进行却是十分重要的管理问题。BS25999正是世界上第一个关于业务连续性管理(Business Countinuity Management,BCM)的标准。它为企业在预防业务中断以及业务中断后数据中心的运作方式提供了科学的管理框架。该框架的目标在于及早确定可能发生的冲击对企业运作造成的威胁,并提供合理的架构有效阻止或抵消不确定事件造成的威胁,保证企业日常业务运行的平稳有序。
该标准分为两部分:
第一部分《BCM实践指南》于2006年年底公布,为业务持续发展指南,帮助企业建立相应的准备机制。
第二部分《BCM规范》于2007年年底公布,对标准第一部分所要求的认证过程做出规范。
BS25999 的好处非常广泛,涵盖3个关键领域:
(1) 适应力:当您实现关键目标的能力面临破坏时,主动改进您的适应力。
(2) 交付:在中断之后为您提供一套计划充分的能力恢复方法,帮助您继续在受认可的水平和期限内提供关键产品和服务。
(3) 管理:提供切实可行的中断管理及信誉和品牌保护能力。
这一标准建立了业务持续管理的相应过程、原则和术语体系,提供了在企业内贯彻业务连续性理念、发展和贯彻业务持续管理体系的基础。还阐述了业务持续管理的生命周期、过程的评价及更新文件系统、业务持续管理的选项,以及实施业务持续管理的方法和战略。
该项标准包括以下部分:定义和术语,什么是业务持续管理,业务持续管理总览,业务持续管理体系,项目管理,对组织的认识,决定业务持续管理的模式,制定和执行业务持续管理的机制,业务持续管理的实施、维护、审核和评价,将业务持续管理植入企业文化。
目前,第一部分和第二部分的标准正在越来越多地被业界应用。BSI的技术委员会还在致力于该系列的其他标准文件,帮助企业具体实施业务可持续性管理体系。未来工作的方向包括体系的验证和演练、IT系统灾难恢复、危机处理等相关标准。
6. ITIL信息技术基础构架库V2
ITIL(Information Technology Infrastructure Library)是英国商务部开发的一系列指导规范的集合,这些指导规范被汇集到一套书籍当中。这套书籍描述了用于管理IT服务的集成的、面向过程的,以及非常好的实践的框架。至今,这套书是唯一全面、非专有的和可公开得到的IT服务管理指南。ITIL是20世纪80年代后期提出和开发的,目前已发展到第三版。其初衷是为了提高英国中央政府的IT服务管理水平,然而它也适用于多种组织,包括公共的或私有的、大型的或小型的、集中的或分散的所有组织。现在,ITIL不仅代表书籍本身,它已形成了一个包括培训、认证、咨询、软件工具和行业协会(即IT服务管理论坛)在内的完整产业。
IT服务管理是ITIL框架的核心,它是一套协同流程(Process),并通过服务级别协议(SLA)来保证IT服务的质量。它融合了系统管理、网络管理、系统开发管理等管理活动和变更管理、资产管理、问题管理等许多流程的理论和实践。ITIL共有6个模块,包括:业务管理、服务管理、IT基础架构管理、应用管理、安全管理、IT服务管理规划与实施。这6个模块可以被看做是建立在技术与业务之间的一座桥梁。其中又以服务管理模块为核心,其由“服务支持”、“服务提供”两个子模块组织,这两个模块覆盖了10个流程与一个服务台。下面分别介绍服务支持和服务提供的10个流程与服务台功能。
1) 服务提供模块
ITIL的服务提供模块覆盖了规划和提供IT服务所需要的过程,包括服务级别管理、财务管理、容量管理、IT服务连续性管理和可用性管理。这些管理流程之间的关系如图6-18所示。
图6-18 服务提供模块
(1) 服务级别管理(Service Level Management):服务级别管理是定义、协商、订约、检测和评审提供给客户的服务质量水准的流程。
(2) IT财务管理(Financial Management of IT Services):IT财务管理是在提供深入了解IT服务管理流程的基础上,对IT恢复运作的费用及成本重新分配并进行正确管理的程序,其目标是帮助IT部门在提供服务的同时加强成本效益核算,以合理利用IT资源、提高效益及财务资源使用的有效性。
(3) IT服务连续性管理(Continuity of IT Services):IT服务连续性管理是指确保发生灾难后有足够的技术、财务与管理资源来确保IT能持续服务的管理流程。
(4) 容量管理(Capacity Management):容量管理是指在成本和业务需求的双重约束下,通过配置合理的服务能力来确保服务的持续提供和IT资源的正确管理,以发挥最大效能;以合理的成本及时提供有效的IT服务,以满足组织当前及将来的业务需求。
(5) 可用性管理(Availability Management):可用性管理是在正确使用资源、方法及技术的前提下保障IT服务的可用性和实践可用性要求。目标是确保IT服务的设计符合业务所需的可用性级别。
2) 服务支持
服务支持模块更多的用于处理事件管理、问题管理、变更管理、配置管理、发布管理及服务台功能的日常支持和维护。这些流程之间的关系如图6-19所示。
图6-19 服务支持模块
(1) 服务台(Service Desk):服务台有时也称帮助台,即通常人们所指的呼叫中心或客户服务中心,它不是一个服务管理过程,而是一种服务职能。服务台经常与事件管理紧密结合,用来连接其他的服务管理流程,逐渐被称为一线服务支持的代名词。
(2) 配置管理(Configuration Management):配置管理是由识别和定义系统中软件和硬件等配置项资源并记录和报告配置状态和变更请求,以及检验配置项的正确性和完整性等活动构成的过程。
(3) 变更管理(Change Management):变更管理是要确保在IT服务变动的过程中能够有标准的方法,以有效的监控这些变动,降低或消除因为变动所造成的问题。它的目的并不是控制和限制变更的发生,而是对业务中断进行有效管理,确保变更有序进行。
(4) 发布管理(Release Management):发布管理是指对经测试后导入实际应用的新增或修改后的配置项进行分发和宣传的管理流程,目的是要保障所有的软件组件的安全性,以确保只有经过完整测试的正确版本得到授权进入正式运行环境。
(5) 事件管理(Incident Management):事件管理指的是突发事件管理或意外事件管理,处理IT的危机并要从中恢复运转。即出现事故时,能尽可能地恢复服务的正常运作,避免业务中断,以确保非常好的的服务可用性级别。
(6) 问题管理(Problem Management):问题管理是指负责解决IT服务运维过程中遇到的所有问题的流程。问题管理的主要活动实质上就是分析被列出问题事件的根本原因,找出解决方案,把事件的影响最小化,并通过找到已发生事件或潜在事故的根本原因来减少事件的数量或消除事件的再次发生。
7. COBIT信息系统审计标准
COBIT(Control Objectives for Information and related Technology),该标准是目前国际上通用的信息系统审计标准,由信息系统审计与控制协会在1996年公布。这是一个在国际上公认的、权威的安全与信息技术管理和控制的标准。它在商业风险、控制需要和技术问题之间架起了一座桥梁,以满足管理的多方面需要。该标准体系已在世界一百多个国家的重要组织与企业中运用,指导这些组织有效利用信息资源,有效地管理与信息相关的风险。
1) COBIT将IT过程、IT资源与企业的策略与目标(准则)联系起来,形成一个三维的体系结构
(1) IT准则集中反映了企业的战略目标,主要从质量、成本、时间、资源利用率、系统效率、保密性、完整性、可用性等方面来保证信息的安全性、可靠性、有效性。
(2) IT资源主要包括以人、应用系统、技术、设施及数据在内的信息相关的资源,这是IT治理过程的主要对象。
(3) IT过程是在IT准则的指导下,对信息及相关资源进行规划与处理,从信息技术规划与组织、采集与实施、交付与支持、监控等4个方面确定了34个信息技术处理过程,每个处理过程还包括更加详细的控制目标和审计方针,用于对IT处理过程进行评估。
2) COBIT信息技术的控制目标
COBIT是一个非常有用的工具,也非常易于理解和实施,可以帮助在管理层、IT审计之间交流的鸿沟上搭建桥梁,提供了彼此之间沟通的共同语言。
(1) 有效性(Effectiveness)——是指信息与商业过程相关,并以及时、准确、一致和可行的方式传送。
(2) 高效性(Efficiency)——关于如何非常好的(最高产和最经济)利用资源来提供信息。
(3) 机密性(Confidentiality)——涉及对敏感信息的保护,以防止未经授权的披露。
(4) 完整性(Integrity)——涉及信息的精确性和完全性,以及与商业评价和期望相一致。
(5) 可用性(Availability)——指在现在和将来的商业处理需求中,信息是可用的。还指对必要的资源和相关性能的维护。
(6) 符合性(Compliance)——遵守商业运作过程中必须遵守的法律、法规和契约条款,如外部强制商业标准。
(7) 信息可靠性(Reliability of Information)——为管理者的日常经营管理以及履行财务报告责任提供适当的信息。
3) COBIT的优点
(1) 通过实施COBIT,增加管理层对控制的感知及支持。
(2) COBIT使IT管理工作简易并量化,减轻对复杂信息系统管理工作的难度,并且可以应用在每天都在发生的各种新问题中。
(3) COBIT提供了一种国际通用的IT管理及问题解决方案。
(4) COBIT有助于提高信息系统审计师的影响力。
(5) COBIT框架可以帮助决定过程责任,提高IT治理水平。
6.4 数据中心运维管理提升
6.4.1. 建立可持续改进的运维管理
自进入20世纪90年代以来,持续改进的管理思想得到了企业界的认同。在目前激烈、复杂、变幻莫测的市场环境之下持续改进已经成为任何谋求发展的企业的永恒主题。
数据中心施行运维管理的持续改进可以不断提高管理水平,使内部管理得到提升。同时也可以提高满足客户需求的能力,向客户提供更好的服务。从而在激烈的市场竞争中得到发展。
数据中心实行持续改进可以通过PDCA循环来实现。所谓PDCA循环是美国著名质量管理专家戴明(W•E•Deming)首先提出的。每执行完一次PDCA循环,企业的管理水平就会在先前的水平基础上得到一定的提高。而不断的执行PDCA循环就可以使企业的管理水平形成螺旋式上升的趋势,达到不断的改善管理水平的目的。
在数据中心实际运维过程中管理体系本身需要具备不断执行PDCA的能力,而执行PDCA需要两方面的条件:
(1) 建立符合PDCA原则的管理体系。
(2) 在数据中心运维中认真执行管理体系,并实际执行持续改进。
由于PDCA的持续改进循环已经在企业管理界得到广泛认同,目前数据中心管理所涉及的主要管理标准在设计中也融入了PDCA的管理思想。例如前面介绍的ISO9001、ISO27001、ISO20000、ISO14000、BS25999标准都已经融入了PDCA的管理思想。所以按照这些管理标准建立的数据中心运维管理体系也具备了持续改进的管理基础。因此,只要数据中心的管理体系是以上述标准建立的就基本满足了第一项要求。
对于数据中心持续管理的实际运行可以通过以下几个方面进行。
(1) 制定管理目标和管理方针。
制定管理目标和管理方针应根据数据中心本身的特点及能力制定管理目标。管理目标不宜制定的过高,也不要制定的过低,应该是数据中心目前能力无法达到但通过努力可以达到的目标。这样才具有持续改进的动力。
管理目标应该被分解到基层部门,而不能只停留在管理层,要让每个部门甚至每个人都知道自己为了实现数据中心的管理目标需要做些什么事情,自己的具体目标是什么。
(2) 制定相关流程文件并执行。
认真执行流程文件是PDCA过程的重要组成部分。因为流程文件是根据企业运维实际情况制定的,是企业管理经验的沉淀。每次对数据中心运维的改进最终都会被落实到流程文件的规定中。不能很好地执行流程文件,数据中心的持续改进就只能停留在纸面上而不能对数据中心的管理起到真正的作用。
(3) 对执行文件的效果、运行指标进行确认,了解客户及相关方需求,找到改善点并执行改善。
收集数据中心管理需要改善的内容,可以从以下几方面着手:
① 执行内部审核,发现流程文件执行中的问题。
② 统计各类指标的完成结果,对各部门完成目标的情况进行总结。
③ 通过客户满意调查和客户沟通,了解客户对服务的意见。
④ 通过与相关方的沟通,了解相关方对数据中心的要求。
⑤ 了解业界管理动态。
当数据中心收集到需要改善的内容后,就要根据自身特点和业界经验对管理进行改善,并最终落实到流程文件中。
(4) 通过管理者评审,确认改善效果,修订方针、目标。
当数据中心完成上述工作后,管理者需要对数据中心的实际管理情况重新进行评估,如果有必要则需要修订相关的方针、目标,为数据中心下一阶段的管理改进明确方向。
6.4.2. 建立多重符合性的运维管理
ISO9001、ISO27001、ISO20000、BS25999及ITIL、ISO14000、COBIT等标准的推出,一方面为数据中心运维管理的规范给出了许多的指南,另一方面也为数据中心的运维管理提出了多重符合性挑战。所谓“多重符合性”是指,数据中心一方面要依据上述标准的要求建立不同的管理流程与体系;另一方面又要让员工能在日常工作中不会因为上面有太多的条条框框而无所适从;最后,就是要规划好这些管理体系之间的关系,定义好这些管理体系之间的接口,使所有的管理体系均获得良好的管理与维护。
目前,部分企业虽然也开始基于上述标准或开发了自己的管理体系,但这些通过标准的数据中心在构建自己的管理体系时通常采用“一个标准起草一套管理体系文件”的做法。如果一个企业需要同时通过ISO9001,ISO27001,ISO20000三个标准就需要分别起草三套文件来满足认证要求。这样做的好处显而易见,主要是管理体系的文件起草方面,单独维护容易,但也带来了如下问题:
(1) 管理体系间没有很好的衔接。
(2) 管理体系维护成本提高。
(3) 缺乏对数据中心管理框架的整体考虑。
(4) 员工执行流程文件难度加大。
(5) 新的管理体系导入对原有管理体系将造成较大的冲击。
因此,建议将不同的标准整合到一套管理体系文件中,建立一套同时符合ISO20000、ISO27001、ISO9001三个管理体系的整合标准。在建立该套整合管理体系时的关键着手点主要有:
(1) 以ISO9001标准作为管理平台,实现管理者对数据中心流程、资源、目标的管理。
(2) 基于PDCA原则建立持续改善机制,形成以制定策略方针、管理目标、制作执行流程文件、收集监控运维数据进行管理评审5项工作为循环的持续改进环。
(3) 以ISO20000为数据中心运维管理流程框架主干,组织数据中心运维管理的各项工作。
(4) 以ISO27001的要求为具体规范,通过信息资产管理、风险分析等工作落实数据中心信息安全管理的各项措施,使数据中心的信息安全工作得到有效管控。
(5) 在具体管理流程与对应的管理标准之间建立映射关系,形成统一的管理框架和文件体系,使数据中心各类管理体系流程在同一框架内得到维护,同时降低了管理流程维护成本。
(6) 保留了管理框架的可扩展性,为以后融合其他管理体系标准预留接口。
6.4.3. 建立高度自动化的运维管理
为更好、更有效地实现数据中心运维管理目标,建立高度信息化的数据中心运维管理应始于对其信息系统的总体规划,数据中心的信息系统规划应表达出对战略、业务、信息、应用、技术等方面的综合考虑。
图6-20是面向数据中心的企业架构(DCEA),供读者参考,其中:
图6-20 数据中心的企业架构
(1) 业务架构和组织架构,用于理解组织使命、愿景、目标、业务、期望、要求、约束,以及角色、职责、流程、业务实体、场景、规则、术语、需求。
(2) 应用架构,用于描述支持业务的系统功能和特征,以及系统间关系,还应包括应用系统的功能模块、功能需求、系统间消息传递。
(3) 数据架构,用于定义数据如何被使用、处理、保存、交换、所采用的标准,采用主题域、实体、属性、关系、约束、数据流等方式来描述。
(4) 技术架构,表达了IT基础结构、技术路线、设计原则、开发规范、非功能要求,常用层次、平台、组件、类、对象状态、属性、方法等要素来描述。
(5) 运行架构,定义了部署和运维的过程,实现系统建设与运维无缝集成,一般可包括流程与角色定义、工单分类、配置项、服务影响树等要素。
首先,对支撑数据中心业务和处理数据的信息系统进行能力上的逻辑分组,明确如何满足业务架构中提出的业务功能和数据架构中提出的数据处理要求,如图6-21所示。
图6-21 数据中心信息系统应用参考架构
基于上面的逻辑分组,对应用架构进行进一步的细化,细化的颗粒度取决于规划项目的范围和质量要求,如图6-22所示。
在数据中心信息系统架构设计的基础上,结合运维管理的要求可以自行设计或从外部获取信息系统建设的路线图和解决方案,选择适当的时机以项目群的方式启动信息系统建设过程,从而实现数据中心的运维管理目标。