【IT168 资讯】建设IT应急(容灾)系统似乎是一件不讨好的事,花费很多钱只是为了预防“万一”。“万一”如果不出现,大量的投入看起来就浪费了,但是又不得不预防“万一”。最坏的情况是,尽管花了不少钱,但真正出现“万一”的时候,应急系统却没有发挥作用。
“三多一小”的应急体系
山东移动的BOSS应急体系建设,概括起来就是“三多一小”,即多级冗余,数据为先;多级预案,逐步升级;多级联动,重点保障。而所谓“小”,就是以“最小的代价”进行“最快应急”。
多级冗余,数据为先:要做到多级冗余,一是主机和磁盘阵列的冗余配置,主机的电源、内存、磁盘、光纤卡、网卡等都是冗余的。冗余的网卡、光纤卡要确保连接在不同的交换机上;二是机房、空调、电源的冗余。电源要配独立的双UPS和双电源线接入;三是物理传输路由的冗余。冗余光纤传输要来自不同的物理路由;四是数据中心的冗余。三个中心互为灾备,任何一个瘫痪,都可以由另外两个数据中心接管。
多级预案,逐步升级:一级为业务应急预案。在业务本地运行模式下,系统出现故障时启动,以实现对业务的影响最小,或者没有影响。通过业务部署、业务冗余处理模块等多种方式实现;二级为本地接管预案。在单点故障或设备主动维护时,BOSS各个业务系统均实现本地HA(高可用性)接管。关键系统例如营业、计费、漫游、接口,都实现了自动接管;三级为容灾切换预案。山东移动建设了负荷分担、互为备份的三中心容灾体系。数据库层采用1对2的架构,采用“存储底层同步复制+定时快照复制”技术,防止数据的物理或逻辑错误;四级为备份恢复系统。它提供生产数据快照及磁带备份,日常全备和增量备份均直接通过远程SAN备份到异地中心,用于严重事件的应急恢复工作。
从第一级到第四级预案,故障带来的损害程度逐渐增大,处理时间也逐步增长,当然对业务的影响程度也逐渐增大。根据事件发生的性质和影响程度,优先采用影响业务小的预案,并视情况逐步升级应急预案,目的是使事件对业务的影响减小到最低。
多级联动,重点保障:建立完善的应急管理制度,才可以保证在遇到突发事件时,应急管理组织体系能够有效运转。经过几年的实践,山东移动建立了应急监测预警机制、信息沟通机制、应急决策和协调机制、分级负责与响应机制。此举理顺了业务与IT部门在应对突发事件中的关系、应急指挥和实施部门的关系、综合应急部门和支持厂商的关系,建立了信息统一、管理对接、资源共享、协同有力的应急管理机制,调动了各方面应急管理的积极性。如此以来,一方面梳通内部流程,打通省市间、账务中心与其他部门间的通道;另一方面,梳通厂家支持流程,与支持厂商建立合作关系,从而构建了“省-市-合作伙伴”多级联动的应急保障体系。
不同业务及系统的应急代价是完全不同的,同时带来的应急手段差异也很大,需要以“最小的代价”进行系统的“最快应急”。对开户、缴费、业务变更等关键业务,山东移动自主独立开发了单独的关键业务保障小系统,独立于BOSS系统外。同时和BOSS系统建立自动接口,确保紧急情况下可以启用该系统,进行最关键业务的办理。在系统异常、版本上线、本地接管、容灾切换的过程中,可以启用关键业务保障子系统,进而打造一个关键业务不间断的BOSS系统。
云计算成功落地
山东移动BOSS系统的核心业务均构建在EMC的设备和软件之上,包括EMC Symmetrix DMX存储阵列、SRDF/快照等。按照惯例,运营商一般将系统架构设计和建设主要交给厂商/系统集成商来主导。山东移动在BOSS应急体系建设中坚持自己主导,与厂商进行互动,充分利用厂商技术、产品、服务和经验。进行自主创新,取得了良好的效果。
山东移动的“多中心业务容灾”模式,就是在应急系统架构上的一个自主创新。具体做法是,将容灾机房和生产机房混合部署。例如,A、B、C三个机房,每个机房都有完整的BOSS系统,各自承担一部分地市的业务。C机房最大,对A和B机房同时进行灾备,任何一个机房出现严重问题,其他两个机房就能够接管全部的业务。
原文出自【比特网】,转载请保留原文链接: