Hive分区技术

发表: 2018-07-20 浏览: 1929

数据库大数据 Hive

本周已经更新完成Hive分区的三个章节：技术详解，多重分区，动态分区

在Hive Select查询中一般会扫描整个表的内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中我们关心的一部分数据，因此建表时引入了partition概念。分区是一种根据“分区列”(partition column)的值对表进行粗略划分的机制。Hive中的每个分区对应数据库中相应分区列的一个索引，每个分区对应着表下的一个目录，在HDFS上的表现形式与表在HDFS上的表现形式相同，都是以子目录的形式存在。

1. 什么是分区

分区是表的部分列的集合，可以为频繁使用的数据建立分区，这样查找分区中的数据时就不需要扫描全表，这对于提高查找效率很有帮助。创建分区本质上是在表的目录下创建目录，是对数据的细粒度的管理。

2. 为什么分区

数据量越来越大，hive查询会全表扫描，浪费时间。创建分区，只查询我们关心的那部分数据，提高查询效率。

3. 怎么分区

主要根据具体业务进行分区，数据会依照单个或多个列进行分区，通常按照时间、地域或者是商业维度进行分区。创建表的时候使用partitioned by (字段名字段类型)进行分区，可以创建多级分区。

4.分区的细节

分区名不区分大小写，不建议使用中文

分区使用的字段是表外字段，只存在于元数据中，数据中不存在

可以创建多级分区

具体如何创建分区，如何操作分区，请收看我的课程第三章的内容

推荐 5

本文由 Max_Leo 创作，采用知识共享署名-相同方式共享 3.0 中国大陆许可协议进行许可。
转载、引用前需联系作者，并署名作者且注明文章出处。

本站文章版权归原作者及原出处所有。内容为作者个人观点，并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台，并不用于任何商业目的，如果有任何问题，请及时联系我们，我们将根据著作权人的要求，立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录或注册