美文网首页hive
Hive表的创建及外部表、分区表介绍

Hive表的创建及外部表、分区表介绍

作者: Andone1cc | 来源:发表于2017-05-04 19:01 被阅读48次

    创建表的三种方式

    1.第一种创建方式:普通方式(最常用)

    创建格式

    # 指定表的类型和表的名称
    CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name 
    # 指定每列的名称和类型
    [(col_name data_type [COMMENT col_comment], ...)]
    # 对表的说明
    [COMMENT table_comment]
    # 指定分区表的列名称,列类型
    [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
    # 指定每列的分隔符、数据类型的类型
    [
    [ROW FORMAT row_format] 
    [STORED AS file_format]
    | STORED BY 'storage.handler.class.name' [WITH SERDEPROPERTIES (...)] 
    ]
    # 指定数据文件存储在HDFS的什么位置
    [LOCATION hdfs_path]
    # 表的属性设置
    [TBLPROPERTIES (property_name=property_value, ...)] 
    # 子查询
    [AS select_statement];
    

    示例(创建员工表和部门表)

    hive1.png hive2.png hive3.png

    加载数据

    格式load data [local] inpath 'filepath' [overwrite] into table table_name [partition(partcol=val1,partcol2=val2...)]
    参数解释:local表示是否从本地文件系统寻找文件,默认的是从hdfs上寻找文件;overwrite表示是否覆盖表中已有的数据。

    hive (test_db)> load data local inpath '/opt/datas/emp.txt' overwrite into table emp;
    hive (test_db)> load data local inpath '/opt/datas/dept.txt' overwrite into table dept;

    hive4.png hive5.png

    2.第二种创健方式:把子查询的结果作为一张新表。适用于需要保存查询的中间结果。

    创建格式

    与第一种格式相同,需要注意 子查询要放在最后。

    示例

    hive6.png

    3. 第三种创建方式:复制另外一个表的结构。

    创建格式

    create table tablename1 like tablename2;创建表1而且和表2 的表结构和属性完全一样,但是不复制表2中的数据,所以表1的数据为空。

    示例

    hive7.png

    Hive两种表类型

    如果在创建表时不指定external关键字,则默认的是创建管理表(内部表),内部表对应的目录必须存储在hive的数据仓库中。

    hive8.png

    还有一种表是指定external关键字的表,即外部表,外部表的数据文件可以自己指定目录(不在局限于hive数据仓库中),指定对的目录下面的数据文件及为这个表的数据文件。

    如何创建外部表。location指定的是hdfs上的目录,该目录表示的是这个外部表目录,这个目录下的文件即为这个表的数据文件。

    hive9.png

    内部表和外部表的区别

    1. 执行删除表命令操作时,对于内部表,会删除元数据和存储的数据,而对于外部表只会删除元数据库里的元数据信息,而不会删除存储的数据。这样可以防止多个部门同时使用一个表时,一个部门删除数据文件导致其他部门不能使用的情况。方便共享数据。

    2. 内部表默认存储在数据仓库中,而外部表一般通过location自己指定目录,便于存放在仓库外。

    Hive分区表

    • 为什么有分区表?
      如果把一年或者一个月的日志文件存放在一个表下,那么数据量会非常的大,当查询这个表中某一天的日志文件的时候,查询速度还非常的慢,这时候可以采用分区表的方式,把这个表根据时间点再划分为小表。这样划分后,查询某一个时间点的日志文件就会快很多,因为这是不需要进行全表扫描。

    • hive中的分区表
      hive中的分区是根据“分区列”的值对表的数据进行粗略的划分,hive中一个表对应一个目录,再根据分区列在这个表目录下创建子目录,每个子目录名就是分区列的名字。分区列定义与表中字段相似,但是与表中的字段无关,是独立的列。这样就加快了数据查询的速度,因为不会对这个表中进行全盘扫描了。

    • 示例

      1. 创建分区表


        hive10.png
      2. 向分区表加载数据

      hive11.png
      hive12.png
      1. 查看分区表
      hive13.png
      hive14.png
    1. 查询分区表中数据

      hive15.png

    相关文章

      网友评论

        本文标题:Hive表的创建及外部表、分区表介绍

        本文链接:https://www.haomeiwen.com/subject/rxedtxtx.html