作家
登录

关于Hive数据仓库的那些事儿--数据存储结构

作者: 来源: 2018-03-15 10:06:50 阅读 我要评论

Why Columnar Storage?

下面大年夜拭魅战角度出发,用一系列的实验给读者展示在数据仓库中应用Columnar Storage的优势。

我们选择以下维度作为PB.LZO(LZO紧缩)、RCFile、ORC以及Parquet的机能标准:

  1. 数据紧缩比
  2. 义务履行时光
  3. Map输入量
  4. 平均CPU时光开销

为了杀青这些指标的测试,我们拔取910GB的文本数据。这些数据一方面转换为PB.LZO格局保存;另一方面采取上述后三种Columnar Storage数据格局保存,并以Snappy或Gzip/Zlib紧缩。实验结不雅如下:

大年夜图(a)中可以得知,Columnar Storage比Row-oriented Storage具有更高的紧缩比。同一嵝内的数据比之不合列之间,具有更高的类似度。所以列块比行的紧缩效不雅加倍明显。

图(b)表示义务履行时光。因为义务履行时光受诸多身分(例如集群计算资本闲忙情况、实验次数是否能充分清除随机性、收集吞吐等等)影响,我们这里只将其作为参考。

复杂萌芽会增长Reduce的计算时光,而Columnar Storage技巧并不会加快Reduce的营业逻辑计算。所以我们选择的测试义务均为:

ORC(Optimized Row Columnar)在RCFile基本上改进,供给了加倍高效的数据存取格局。和RCFile比拟,ORC有如下优势:

  • 单个Hive Task输出单个文件,减小文件体系负载。
  • 支撑datetime、decimal和其他复杂类型(struct、list、map和union)。
  • 文件内含轻量级索引。削减不须要的扫描,高效定位记录。
  • 基于数据类型的块模式紧缩。例如String和Integer可以采取不合的紧缩方法。
  • 同一文件可以应用多个RecordReader并发攫取。
  • 支撑免扫描进行文件分块。
  • 读写文件时,绑定I/O所需的最大年夜内存空间。
  • 文件的metadata采取Protocol Buffers格局,许可灵活的属性增删。

Parquet

select count(col1) from table。

图(c)展示的文件输入量比较充分显示了Columnar Storage的优势。比拟PB.LZO,采取各类Columnar Storage技巧的义务Map输入量都仅占各自数据存储大年夜小的一半以下,是PB.LZO输入量的约三分之一。Parquet和ORC在这里表示最优。值得一提的是,就履行select count(*) from table而言,Parquet和ORC可以将Map输入量缩减到100MB以下,这几乎不造成太大年夜的收集I/O开销。

Columnar Storage若何降低文件输入量,取决于其列组的瓜分方法。越细粒度的列组越能降低简单OLAP工作流的文件攫取量。然则多列交叉萌芽就会导致频繁的数据列归并,大年夜而降低萌芽效力。所以我们须要均衡列式存储萌芽效力和文件吞吐量之间的收益。

图(d)中,CPU开销大年夜小到大年夜依次是:ORC-Snappy > ORC-Zlib > RCFile-Snappy > Paquet-Snappy > Parquet-Gzip >RCFile-Gzip > PB.LZO。实验中我们经由过程设置不合的min.split.size调剂Mapper数均为600,最大年夜程度降低情况身分影响。

我们可以看到,各类Columnar Storage技巧在OLAP工作流上的优势是很明显的。

【编辑推荐】

  1. 中国存储家当有望实现弯道超车,初次覆盖全家当链
  2. 云存储中的数据安然技巧
  3. 若何储存和备份小我数据——主流云存储办事比较
  4. 比特币挖矿技巧:分布式数据存储、点对点传输、共鸣机制、加密算法...
  5. 二叉树的定义以及存储构造
【义务编辑:武晓燕 TEL:(010)68476606】


  推荐阅读

  如何打造安全的以太坊智能合约

有奖调研 | 人脸辨认功能在互联网行业认知度情况 大年夜约 75% 的以太坊节点都在运行 Geth,这个马脚可能会使那些运行兼容拜占庭的版本的节点在硬分叉之后加倍轻易遭受 DoS 进击。 >>>详细阅读


本文标题:关于Hive数据仓库的那些事儿--数据存储结构

地址:http://www.17bianji.com/lsqh/40719.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)