“干垃圾”or“湿垃圾”
你学会分类了吗?
最近,上海的垃圾分类新闻成为了全国热议的话题。先别急着笑,因为垃圾分类将从上海推开到全国46个城市试点,而且已经提上日程,所以如何做好垃圾分类,是我们每个人都要做的功课。
而说到了垃圾分类,小编就想到了数据分类,其实两者何等的相似。曾经认为,数据只要安安静静地躺在磁盘里就好了,但随着对数据的认识越来越深刻,人们发现数据其实是一座闪闪发光的金矿。
而随着AI、IoT的向前发展,数据的价值还在不断上升,已经成为企业最宝贵的资产。
从无人问津到视若珍宝,这种转变,真是有种恍若隔世的感觉。不过,如果没有正确地将数据“因材施用”,那么数据价值也无法真正实现,如同错误地把“干垃圾”放进“湿垃圾桶”里一样。
所以,对IT人来说,学会数据如何分类,同样重要!
下面小编就出几
道题来考考各位
01、办公文档、文本、XML等各类报表应该归类为结构化数据还是非结构化数据?
A. 结构化数据。
C. 非结构化数据。
B. 两者都不是。
D.两者都是。
答案:C
解析:有些人误以为只有图像、影音之类的文件才是非结构化数据,其实凡是不适用于数据库二维表来表现的都是非结构化数据,这包括所有格式的办公文档、XML、HTML、各类报表、图片和咅频、视频信息等。
02、在结构化数据和非结构化数据之间,还有半结构化数据,以下对半结构化数据表述是正确的是?(多选)
A. 介于结构化数据与非结构化数据之间。
B. 一种适用于数据库集成的数据模型。
C. 半结构化数据的构成更为复杂和不确定,从而也具有更高的灵活性,能够适应更为广泛的应用需求。
D. 既是结构化数据,也是非结构化数据。
答案:ABC
解析:半结构化数据是介于完全结构化数据和完全无结构的数据之间的数据。半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。
03、换一个灯泡需要多少分析科学家?
A.一个
C.三个
B.两个
D.四个
答案:C
解析:一个证明存在性,一个证明唯一性,第三个推导出一种非构建算法来实现他。
04、什么是热数据?
A. 温度高于40度的数据。
B. 指机房通风不畅,吹不到空调的磁盘里的数据。
C. 指需要被计算节点频繁访问的数据。
D. 是指温度高于60度的数据。
答案:C
解析:这就不需要解释了吧
05、冷数据和热数据如何进行有效利用?
A. 冷数据远离空调,热数据就近空调。
B. 冷数据就近空调,热数据远离空调。
C. 冷数据就近计算,热数据集中存储。
D. 冷数据集中存储,热数据就近计算。
答案:D
解析:由于热数据是需要被计算节点频繁访问的在线类数据,因此需要就近计算,而冷数据冷数据访问频次低,效率要求慢,可以做集中化部署。
06、什么是流数据?
A. 会流动的数据。
B. 是一组顺序、大量、快速、连续到达的数据序列。
C. 在短时间内被大量读取或写入的数据。
D. 一种名为流数据的液体。
答案:B
解析:关于流数据,可以看我们戴尔易安信中国研发中心的专家所写的文章。
07、按照粒度来划分,数据分为以下哪几个类别?
A. 明细数据、状态数据。
B. 汇总数据、原始数据。
C. 明细数据、汇总数据。
D. 汇总数据、衍生数据。
答案:C
解析:所谓数据粒度,指的是数据仓库中数据单元的细节程度或综合程度的级别。这种分类方式的相关场景有两种,一种是在数据仓库设计时,如何对数据进行汇总,按什么方式进行汇总,才能达到使用效率和汇总成本的平衡。另一种是数据分析人员在分析数据时,在明细数据、各种汇总数据之间选择合适的数据,以提高分析效率。
08、文本类、数值类、时间类数据应该放在以下哪个划分方式中?
A. 按照字段类型划分。
B. 按照描述事物的角度划分。
C. 按照数据粒度划分。
D. 按照数据结构划分。
答案:A
解析:按照字段类型分类数据的是最基本的数据分类方式。
09、从描述事物的角度,数据有哪几个分类?
A. 状态类数据、事件类数据、混合类数据。
B. 事件类数据、汇总类数据、时间类数据。
C. 事件类数据、混合类数据、明细类数据。
D. 状态类数据、衍生类数据、混合类数据。
答案:A
解析:这种分类方式在数据仓库建模是特别重要。数据仓库需要保存各种历史数据,不同类型的历史数据保存方式差别很大。状态类数据保存历史的方式一般有两种:存储快照或者SCD方式。事件类数据一旦发生就已经是历史了,只需直接存储或者按时间分区存储。混合类数据保存历史比较复杂,可以把变化的字段分离出来,按状态类数据保存,剩下不变的则按事件类数据保存,使用时再把两者合并。
10、数据湖和数据仓库的区别?(多选)
A. 数据湖比数据仓库能存储更多数据。
B. 数据湖是存储大量原始数据,数据仓库是存储清洗加工过的,可信任的、结构良好的数据。
C. 传统数据仓库工作方式是集中式的,数据湖是开放式、自定义的。
D. 数据仓库存储之前需要定义schema,数据湖是之后才需要定义。
答案:BCD
解析:数据湖建设思路从本质上颠覆了传统数据仓库建设方法论。传统的企业数据仓库则强调的是整合、面向主题、分层次等思路。其两者并不是对等的概念,更多是包含;即数据仓库作为数据湖的一类“数据应用”存在。
11、D记有一款处理非结构化数据的当红“炸子鸡”,它是?
A. Unity XT
C. Isilon
B. XtremIO
D. SC Series
答案:C
解析:Dell EMC Isilon是业界业内知名的横向扩展NAS存储平台,专用于存储、管理和保护海量非结构化数据,同时大幅降低成本和复杂性。
12、灭霸响指一打,地球上的人口瞬间少了一半,请问灭霸适合当什么职业?
A.数据挖掘师
C.算法工程师
B.数据分析师
D.存储管理员
答案:C
13、谁最早提出了今天意义上的大数据概念?
A. John R. Mashey于1998年发表的《大数据与下一代基础架构压力》论文中最早提出。
B. 国际咨询机构麦肯锡于2011年发布的《大数据:下一个创新、竞争和生产力的前沿》研究报告中最早提出大数据概念。
C. Doug Laney在2001发表的《3D数据管理:控制数据数量、速度及种类》研究报告中最早提出了大数据概念。
D. 1987年,一个名为JohnP.Nelson的人在comp.sources.misc新闻组发布了一串代码,其中有这样一段说明:“#不管怎样,它使用的是一个“紧凑”模型(小代码,大数据)”,最早提出了大数据概念。
答案:A
解析:John R. Mashey最早提出了今天意义上的大数据,而比他更早提出的“大数据”概念,指的并不是今天意义上的大数据。
14、小明是搞数据分析的,已经学会了如何从DW中用SQL对数据ETL并建立Cube。目前想要找出今年2月份公司营业收入远远小于其它月份的原因,但至今未果,为什么?Ps.使用过spss、sas中的数据挖掘模型。
A.小明技术不到家
C.今年二月只有28天
B.小明用错数据模型
D.二月是春节
答案:D
14道题,答对几个了?
欢迎留言,看看有没有满分选手
最后来一则广告
▼▼▼
戴尔易安信
企业级产品促销季
限时开启
现在购买普通中端存储
即可1:1免费置换全闪存
购买服务器,可享受低至二六折优惠
更有多品类产品钜惠出击
买戴尔易安信存储和服务器
现在就是最好的时候!
硬盘换闪存1:1促销,
买普通存储,免费升级全闪,不加价!
优惠多多,赶快行动!
长按二维码获取您的服务器专属底价!
获取您的服务器专属底价!
长按二维码立享存储优惠!
相关阅读推荐:戴尔易安信现代化数据中心,让企业数字化转型从理想变现
了解更多数字化转型方案查看此链接:
https://www.dellemc-solution.com/home/index.html