【IT168 应用】服务水平协议(SLAs, Service Level Agreements)在任何公司都是热门话题。许多公司正不断推出SLAs,企图令IT基础设施的可用性与企业的业务目标相符合。
然而,SLA的作用不仅仅是确定一个特定的行为界限,还可以规定违约时的支持性事项和赔偿金。本文将讨论在实施SLAs时,数据中心应当注意的十大要素。
以下是数据中心在制定服务水平协议时的十大注意事项:
1、基本原理:实施SLA的基本方法是以流程、技术、员工这三方面为核心。实施SLA时,不要仅重视技术。在许多情况下,宕机并不是由网络、硬件或软件引起的。评估流程和员工。培训和检验流程在预防宕机方面像N +1架构一样重要。如果你的员工没有经过培训,就不能维护你已经安装的高可用性集群,那么一旦宕机,极大可能比没有集群的宕机时间还要长。
2、量化:一份服务水平协议必须量化。这不仅意味着必须把要被测量的那些空话变得具体(如,每月的网络待机返回不超过95毫秒),还必须量化到数据中心能够采集的单位。例如,应用程序的SLA可用性达到99.9%,而只使用ping去判断服务器是否宕机并不是一个可量化的SLA。应用程序其本身可能已经停止响应,而Web服务器却能正常地运行。确保您的工具能够精确量化你所建立的SLA。
3、可管理:设置SLA服务临界点。建立过多的SLA意味着你的IT部门不得不花费更多时间去整理数据、分析趋势以及应对在非关键服务领域的宕机,而不是运行其他更高优先级的任务。
4、可实现:确保你的目标与基础设施是相吻合的。如果你的网络利用率为90%,你可能无法保证一定级别的响应时间。你可能需要设置预期值,并就当前情况下基础设施能提供的合理的可用性级别等内容对终端用户或其他利益相关者做一些培训。
5、确定性能衡量方式:确保每个人都明白如何测量和计算是非常重要的。设置参数以显示测量内容和时间。例如:“周一至周五早8点到5点之间,服务器的CPU平均利用率不得超过80%。”
6、恰当:确保SLA适合您的企业。一个全球性企业集团的SLA可能并且应该不同于政府部门或网络零售商的SLA。
7、审查进度:每次建立SLA,都要为在正常计划内的具体服务指定相应的审查进度,和审查对象。用SLA收集到的数据来帮助建立将来的扩张模型或服务扩大计划。
8、补救计划:指定宕机应对策略。你的用户有权了解所有业务中断或仅仅是关键业务宕机故障的原因吗?不管是计划停机或意外宕机,您是否会给您的客户做出赔偿?未来将如何预防宕机?
9、符合IT流程:确保你要设置的SLAs各方面都符合你工作中的流程。如果两者之间不匹配可能会导致一种情况,即现场的工作人员无法在授权的恢复窗口中进行补救。.例如,如果你现场的服务器硬件支持协议需要4个小时的响应时间,就不要为某个特定的应用程序设置在2小时内恢复服务的SLA。
10、例外:明确服务水平协议没有涉及到的情况。这可以包括自然灾害、节假日安排、第三方供应商服务故障、最终用户的不当行为、定期升级windows或核心业务时间。