95%海外观众对央视春晚满意——
你虽然为这个数据开过脑洞无数,
但也许,你和那些调查样本
并不在一片数据岛屿。
数字化时代,
再没有人愿意看到“数据孤岛”存在。
IDC预测,
2020年全球数据存储需求将高达44ZB规模,
将为各个行业和企业擎起一片数据天空,
无论深度、广度,
想在这片天空尽情挥洒智慧,
你需要一个实力派!
1 两大数据挑战,是否有一种解决方案?
信息社会所带来的好处是显而易见的:手机、电脑、网络…..但是,信息本身却从来没有如此引人注目过。
半个世纪以来,随着计算机和网络技术的普及,信息增长已经积累到一个开始引发变革的程度。这甚至影响到我们看待数据的方式,正所谓“量变引发质变”。因此,我们创造出了“大数据”这个概念,来反映这种对社会各个领域都造成深入影响的现象。
大数据并非一个明确的技术手段或工具,它实际上是由于需要处理的信息量过大,而发展出的一套平台和算法,从而使处理海量数据成为可能。而且重要的是,这些数据不再只是传统的数据库二维表格形式,文件、图片、视频这些非结构化数据和传统的结构化数据共同组成了待处理的目标数据。因此,海量数据的统一化存储系统成为大数据平台的基本组成单元。
一般来说,在大数据时代,数据的存储和处理发生了两个重要转变。
数据的海量存储
第一个转变:在大数据时代,我们需要分析更多的数据,有时候甚至是处理与某个事件相关的所有数据,而不再满足于使用随机采样的方法。
以往,社会调查都依赖于采样分析。事实上,采样分析是信息缺乏和信息流动受限制的时代产物。这种人为的限制往往与事实真相相差十万八千里。比如:“95%的海外观众对央视春晚满意,观众纷纷点赞”这种结论的出炉除了众所周知的原因之外,与技术手段不能及时全面的提供数据,难以产生准确的分析也不无关系。
因此,为了揭示局部样本无法揭示的完整信息,我们需要存储更多的数据,某些情况下,意味着我们要存储全部的数据。
所以,第一个转变带来的挑战是数据的海量存储。
数据的统一存储
第二个转变:目标数据如此之多,以至于我们不再热衷于追求片面的精确度。或者说,我们不计较特定数据源在微观层面的数字精度,而更在乎能不能从各种数据源获得宏观层面的洞察力。
以往,我们分析和统计的数据来源多基于数据库技术。举例来说,在医疗行业,Oracle、SQL Server这类传统关系型数据库的工作方式可以很清晰的告诉某个患者他的就诊卡里面还有多少余额,上次开销的明细,并精确到每一笔、每一分钱。但是这种方法却很难告诉医疗机构这位患者在过去10年里的健康变化情况,从而提出有预见性的保健方案。事实上,我们的IT系统更像是账务系统,而真正能反映患者健康状况的数据往往存放在PACS、LIS这些系统中,并以高分辨率的图片影像文件形式存在。孤立存在的数据增加了存储的成本,也加大了分析的难度。
所以,第二个转变带来的挑战是数据的统一存储。
那么这两个挑战,Dell SC系列存储是如何应答的呢?
2 实力派SC系列 数据的天空下挥洒自如
首先,数据存储上限的问题在以往的存储系统上,解决方式可谓简单粗暴。某厂商开创了将存储按最大扩展能力定级的先河,于是支持120、240、480等硬盘数就成为了纵向扩展(Scale Up)时代的标准配置。但在大数据时代,高速增长的数据存储需求使这种方法无以为继。我们需要更大规模的存储容量,于是横向扩展(Scale Out)几乎成为唯一选择。
横向扩展 支持多达64个存储单元
Dell SC系列存储,较早的预见到了这一困境,并适时推出了联合系统(Federated System)的概念。通过灵活的软件定义方式,SC系列存储可以将多台不同型号的存储单元组合在一起进行横向扩展,实现非常大规模的数据存储平台。数据在统一管理和分配的虚拟化存储池中实现存放和保护,并且能根据每个存储单元的负载情况,动态的在不同存储单元间流动,从而适应不断变化的应用环境。
今天,SC联合系统可以支持多达64个存储单元,高达192PB的裸容量,为海量数据的存储提供了有力支持。更棒的是,并不强求一定是同一型号。混合SC9000、SC8000、SC4020,甚至是上一代的产品都不是问题。
统一存储 共享数据管理
其次,SC系列存储作为真正的统一存储,设计思想完全克服了不同数据类型的存储孤岛问题。首先,每个型号的SC存储都可以作为共享存储同时存放结构化、非结构化数据。这样带来的好处是,所有的数据都可以采用高度一致的数据保护、管理、备份策略。用户可以一次部署,长期有效。将更多精力放在应用的创新上。
通过模块化的配置,不同的存储需求和访问方式又可以得到个性化满足。比如,当需要以高性能的文件系统来满足海量文件的存储时,基于流动文件系统的FulidFS可以提供帮助。当需要海量并发的NAS连接支持时,可动态扩展的分布式NAS网关FS8600可以满足要求。因此,数据类型的复杂性和访问形式的多样化不再是问题。
今天,在Dell SC系列存储海量存储和统一存储特性的有力支持下,大数据时代的存储问题不再是挑战。意味着客户可以从一切事务中汲取信息,并将这些数据信息转变为洞察力,最终帮助客户取得成功。
3 突破数据孤岛 智慧医疗触手可及
中南大学 (http://www.csu.edu.cn)是教育部直属全国重点大学、国家“211工程”首批重点建设高校、国家“985工程”部省重点共建高水平大学和国家“2011计划”首批牵头高校。其下辖1914年创建的湘雅医学专门学校,是我国创办最早的西医高等学校之一。
中南大学湘雅医学大数据平台建设,实现了各医院数据的统一汇聚,具有实施临床示范项目应用的作用;同时充分发挥了医院信息系统中的数据价值。整个建设包括湘雅大数据基础平台和湘雅大数据支撑平台。
湘雅大数据平台实现了数据的导入、标准化、存储、处理与分析挖掘,统一汇集了校附属医院的医疗数据,建立了跨院电子病历数据中心,能够深层次挖掘分析与处理各类数据之间的相关性,并通过数据访问接口提供数据服务。
总共8台Dell SC8000作为大数据存储,承担了数据的存放、保护和数据访问物理接口等任务。通过其适应海量数据的高可扩展特性和面向大数据环境的方案设计,用户成功的实现了平台建设,并充分发挥了医院信息系统中的数据价值。
未来,随着大数据应用的进一步深入,SC8000的良好扩展性可以提供更多的数据存储空间,帮助客户从数据中挖掘更大价值。