数据中心 频道

史永良:专业的数据中心外包服务

  【IT168 资讯】上海证券通信有限责任公司运营保障部经理史永良先生做了主题为专业的数据中心外包服的精彩演讲:各位来宾受,大家下午好!首先要感谢我们田总,今天我演讲的主题是“专业的数据中心外包”,刚刚田总已经把外包服务的真谛讲出来了,用我的话理解就是专业的人做专业的事。在这里我解释一下这个题目,我谈到的是数据中心的外包,大家都知道服务外包就喊外包,其实服务外包我理解的是甲方的一个词,它提供的服务外包给承接服务的人去做,那么我们谈到的外包服务有能力承接这样服务的,一个是要讨论你的对象是不是有能力接的你服务,还有你要证明你有这个能力承接这个外包。

  首先,介绍一下我的背景,我来自上海证券通讯公司的,我的主要工作是在通讯公司完成的,介绍的内容也是基于通讯公司的背景,它承担了上海证券交易所交易业务中的所有通讯业务,也是唯一的通讯业务,大家如果要做上海证券交易所的通讯业务就必须要通过我们来做。另外我们也是深圳证券交易所的网络通信备份通道,我们和深交所是互备份的。我们拥有卫星宽带广播系统,SCPC、VSAT、KU宽带接入,地面有DDN、SDH、PSTN地面系统,他们互为备份。

  我们公司从2005年开始了为证券行业提供灾备中心的服务,它服务范围包括了证券交易所,信息公司、会员公司、基金公司、信息提供商等等服务范围。我们在2006年底建成了专业的数据中心大楼,叫做证券技术大厦。这个大楼类比等同于TIA942中的T3标准,机房面积为6447平方米,办公面积为3156平方米,以入住证券公司32家,覆盖营业部数为1335个,占全国营业部总数42.34%,从这点来看,如果这栋大楼垮了,深交所和上海交易所都会垮,如果出现了一点事情影响的人群是上千万,我们全国的证券投资人有1个亿,每天参加投资的有数千万多,如果这里出事,我说的是特大安全事故,有人说我显得很苍老,但是我年龄不大,压力很大,这是我们行业的背景。

  我们现在想做的事情是做数据中心的外包服务提供,这里我也谈谈我对外包服务的定义,这里谈的是服务外包,服务外包可以分行业去谈。这里在座的各位都是专家,我这里讲的我所认识到的也是销售一个概念,我所认识到的外包服务、服务外包它至少有三个本质的好处:

  第一,可以降低成本,当然我们不要把降低成本希望过高,过大,降低成本它可以来自于很多方面:第一规模经济,我们提供很好的基础设施环境,包括强电,消防系统,包括空调系统,安保系统,大楼建筑等等,这种规模经济我们降低成本;还有一种是换位经济,我做得更好;第三个好处是我们可以通过专业化的管理队伍提高运营水平,提高我们的安全保障能力;还有一个就是刚才谈到的让专业的人做专业的事情,比如海富通基金它不用关注于IT,不用关注与它的IT系统的安全性,不用关注它IT业务的连续性问题,他所要关注的是怎么样把基金卖出去,怎么更好的使他的基金委托人盈利,这是的他出发点,其他的问题用不着关心。

  我昨天在飞机上看到了航空公司提供的餐饮是外包出去的,不可能每个航空公司各自提供餐饮。现在已经开始服务外包的领域有很多,我只是列了一些。我查了一些资料没有做实际的调查,这也是在资料上查来了,据资料上分析,前面四种是现在服务外包领域占的份额比较大的,可以看到IT服务人力资源管理等等,我甚至看到了包括金融的一些服务,非核心的服务在做外包,比如银行卡业务已经外包出去了。我们也关注到我们国家对服务外包是大力提倡的,温总理在去年十一届全国人大一次会议上提到了要扩大服务出口,扩大服务外包,王琦山副总理也提到了要扩大服务外包。我理解服务外包是希望我们做好外包服务的准备去承接发达国家的服务外包的发单。我们至少要从印度人那里抢一点份额过来,国内的服务外包提供市场也会越来越大。

  我对服务外包的好处这里谈到的是我自己的一个研究,当然也是参考了很多资料。我们所做的工作有三个层次:我记得我的PPT后面谈到了这个问题,第一个层次是重复性的工作,重复性的工作是有FEQ工作的工作,这样的工作是很容易外包的,我们有一个高中毕业生大学本科生就可以做了,这样的工作往往在更专业的公司是不愿意浪费他的人力做的;第二层的工作是指那种极规则的,提供问题解决方案的工作,这种工作也可以外包,这种工作的外包价值就会比第一种重复性的工作高很多,这种工作我们可以称之为它是一种脑力劳动的工作了,当然这种脑力劳动的工作是相对简单的,因为规则是制定好了的;第三种是一种没有规则提供问题解决方案,这种其实也可以外包,这种外包是指非核心,非主流业务外包,最简单的一个外包。比方说有一个发包方说我有一个问题你帮助我解决掉,怎么解决我不知道,你提供一个方案告诉我怎么样实现,这以上三种都可以外包。

  这是我对外包服务和服务外包的理解,我现在谈的是我们一些外包服务的工作,专业的数据中心的服务,指的是正在运营的证券大厦,这个大楼的设计理念是基于整个生命周期的,我们所关注的是一个过程,我们关注的不是开始,我们关注的是整个生命周期过程的运行,就像现在大家都在谈的人生理念一样,我们活的时候是把这个过程活好了,而不是把这个结果活到,这个结果人人都不能逃避,如果我们可以把每天过得快快乐乐,那这个人是最成功的。第二我们这个数据中心的设计是符合未来发展要求的,它有理论和指导标准。第三我们是有评判手段的,我们是可控的,评判手段就是可信度的概念,它是我们安全运行的核心,是一个量化的手段。我们所注重的是过程的管理,我们所做的事情是致力于不断降低MTTR,它主要取决于人,而不是社会,社会当然很重要,底子好肯定好,但是底子好人管理不好,再好的人在你手上也会杂了,我出来之前我领导说讲自己的事不要讲别人的事,我还是要讲一讲中央电视台辅楼着火的事情,MTTR最核心的思想就是管理。

  我们数据中心的设计目标是三个方面:第一个就是信用指标,它反映了最根本的要求,这是借用了IT的数据,它关键是包括三个关键因素,这里我们有一些外包朋友,我在这里谈一点我个人的感触,并不是进口设备就一定是好的,进口设备或许质量很可靠,但是就可用度来说未必是高的,进口设备有可能不是针对中国设计的,你一定要买的他肯定会卖的,比如我买日本的UPS,我一定要买原装的,我就认为日本原装的质量真的好,它或许真的好,但是它是为日本设计的,它是在日本用的,买回来之后发现这里有一个问题,问题在什么地方呢?110、220的变化,到中国之后就是220了。

  第二是灵活性,这个灵活性体现了整个生命周期的概念。他一定要适应具有适应变化的能力,包括速度、可扩展能力,重新配置等等,很关键。我们今年能看到未来五年已经很了不起了,但是我这个大楼的生命周期可能是50年,我们不可能看那么远,我相信也没有人可以看那么远,怎么办?我们要有这样的能力能够适应变化。当然,这个适应变化能力并不是说我们要具备这个能力就要达到这个能力,需要我们不断的去努力。

  第三我们谈到的成本是指整个生命周期的成本,这个概念是从美国人那里学来的,美国有一个研究所就谈TCO的概念。

  我们在这里设备供应商比较少,我谈谈设备供应上现在做一些策略,你在跟设备供应商谈判采购设备的时候,谈价格的时候一般比较容易,让他让利,让他便宜一点比较容易,但是他不可能说OK,让利给你了,他所做得事情是我这个设备卖给你了,你要使用我的服务,你使用我的配件,你必须使用我的服务购买我的配件,那个时候算过没有?那要多少钱?所以不要贪图一时的便利。在座的各位都很清楚,这也是我的体会。ZPI理论是引进来了,学习了,学习美国,美国在这方面确实做得不错,但是引进ZPI的理论我们把它用来适合我们数据中心大楼,我们提出了两个观点:我们是面向机架,我们关注的是机柜或者是机架,我看了我们的国标和很多的标准都是面向机房,实际上我个人认为已经落伍了。原来我们机房放置机器的话是分布式排放,这个时候面向机房是没错的,没有什么太大的问题,但是设备机存度越来越高,设备越来越小,现在的机房是以机架为基本单位构成的,我们所面临的问题都发生在一个个机架或者机柜里,我们要保证整个系统安全运行它的环境或者叫做机架或者机柜的环境而不是机房的环境,这是我们提出的观点我们也正在做的事情。

  第二我们必须关注七个要素,是以机架或者机柜为主的要素,强电弱电、湿度、温度、磁场和辐射,我去过很多机房,真正做到这七个要素的没有,最简单举一个例子,现在的机房一般采用通风或者回风的25度的温度,机架的局部温度可能超过30度,我们购买的美国设备环境超过40度就会档机,试验证明目前这种下通风的方式不能超过30度,国标我们必须遵循,这是我们国家的基本标准,它是我们必须达到的标准,另外是我们参照北美942的标准,当然也不是完全做到的。

  我们的运维的标准,组织体系上采用PDCA的理论,它关注的就是一个过程,不断循环向上的过程,其实马克思早在上上个世纪就提出了辩证唯物主义的理论。今天上午我们谈了很多,其实标准归根到底都差不多,而且我们理解标准是发达国家的服务外包商用来评估你是不是具备接包能力的手段,如果我们想做个接包,你要看你需要什么标准我们就达到什么样的准就可以了,这是我理解的。我们提高数据中心的可用度手段很很简单,我们似乎还没有特别的手段。

  最后这个冗余,谈业务连续化、计划我们更多的是关注我们的系统,我们忽略了我们管理团队的局限,冗余就是为了消除单点故障,提高容错能力提高可维护能力,这就是我们提高冗余的目的,它的要求最高的要求是不中断或者不影响服务的情况下满足未来增长的需求。冗余的分类主要参照了942,942提出了四种,我们总结了其实就是两种,一种就是单总线,一种就是双总线,T1、T2是单总线,T1是没有人员的我们不谈,T2是总线冗余,T2不能提供全年不间断的服务,T4是最高等级了,当然我们可以做到更高,但是成本也上去了T4并不是做到了就不会出故障,还有很多种情况,刚刚田总谈到了每一种风险都要当成是面临的风险,我觉得思路是对的,但是做起来太累了。我记得去年奥运保障年,当地公安处到我们那儿检查,给我们提出来要我们防范小型飞行器的撞击,我们公安处的领导心是好的,但是我们不能防范,我们当然想防范,想把空军防范像鸟巢的安全一样来布置,但是空军不来。

  我这个资料一直没有改过,我这个折算的时候仍然是按照汇率来计算的,现在可能人民币不需要那么多钱了,但是美金的确是那么多,如果达到T4的标准每平米是8万8千多块钱,这只是建设成本还不是运行成本,成本是很高的。刚才谈到了,说我们所想到的所有风险都当成我们将要面临的风险去考虑的话,我不太赞成这个的,其中一个理由就是我们有手段,我们用可用度分析这个手段决定哪些我们必须考虑,哪些可以用系统的办法去弥补,哪些是需要用应急预案的办法去弥补的。有些事情的发生的概率确实很小,很小概率的事情确实有可能发生,这个时候我们是要靠应急预案去解决这个问题的,不是所有问题都靠我们的增加设备去解决的。

  MTBF和MTTR也是我们引进过来的,MTBF主要是建立和实施阶段,由设备选性的可靠性决定的,MTTR则是我们观察的模式,MTBF在建立的时候基本上决定了它的参数了,它的平均故障时间厂商已经给了,你想给它完善那是厂商的事情,但是MTTR是我们自己的事情,我们所能做的工作就是我们尽量减少MTTR,把MTTR降到最小,MTTR越小我们的可用度就最高。这是一个图例,100%是不可能达到的。这里头有一个彩色的地方,彩色的地方特定标注出来,我们需要有强有力的服务支持,才能缩减MTTR。

  缩减MTTR靠什么东西?我们很多设备、关键设备我们维护服务也是外包出去的,我们是以提供服务外包的,我们外包服务,我们对接包、提供外包服务我们有考察,我们要求他是有承诺的,承诺什么东西呢?有几个数据很关键:一个数据就是你的响应时间是多少?出了问题多长时间能够到我这里来?第二个数据,你的最长修复时间是多少?第三个数据,平均故障维护时间、修复时间是多少?这是我们在提供服务外包合同中要求我们的维护商必须给我提供的数据,有了这些数据我就可以定义出我的整个系统,我的数据中心的可用度是多少了。当这些数据需要我们的团队去进行合同执行情况检查,进行评估,不好的需要更换,寻找更好的。

  这里再加一个题外话,也是我突然想到的问题,今天的主题是灾难恢复与服务外包,如果我们把视野放宽一点,在更宏观的角度谈的话,灾难恢复实际上也是MTTR的概念,灾难恢复实际上也是一个大的过程,所以我们做灾难恢复的话也是提高我们整个业务连续性的有效手段。这里做了一个分析,是我们大楼的,这个没有考虑开关,没有考虑高低压配电柜,我考虑了几个关键的核心设备做了一个简单分析,这里我们有国家电网的专家,市电进线的可用度是2006年公布的数据,0.9996,最终我们送到机柜的供电可用度达到了9个9,远远超过61个码。从理论上看我们是保证了计算机设备的挡机。

  服务外包是我在美国经济网站上取的一个数据,美国的数据随着人均GDP的增长而增长,我们所要做的事情很多,昨天晚上我和华西证券在谈,它希望有提供虚拟计算服务,它希望在外面租用CPU,租用存储,它希望我们做这样的事情,其实我们也在做这样的事情,我想我们在座的可以一起合作共同做这件事情。今天我和我们的社区中心的领导在谈标准的问题,有两个方面:第一是我们做服务外包发包的要衡量你的接包能力;第二你发包的人有什么能力去发包,谢谢大家。

  嘉宾介绍:史永良,上海证券通信有限责任公司运营保障部经理,拥有17年证券行业从业经历,主要致力于证券行业IT服务保障。2003年开始进行数据中心建设、运营、业务连续性以及灾难恢复的实践和研究,目前负责两幢数据中心的基础环境运行管理工作,分别支持上海证券交易所核心交易处理以及覆盖全国42%证券公司营业部的投资人证券买卖业务处理。在实践活动中,以保障机房运行微环境为目标建立了7个指标体系:强电、弱电、温度、湿度、空气洁净度、磁场和辐射,通过可用度计算实现数据中心基础环境保障的可控管理

0
相关文章