美文网首页
Hive基础及进阶

Hive基础及进阶

作者: 任目达 | 来源:发表于2020-12-15 16:29 被阅读0次

    一、介绍

    Hive起源于Facebook,它是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务运行。同时,它也允许熟悉 MapReduce 开发的开发者自定义 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

    二、Hive的应用场景

    Hive 构建在基于静态批处理的Hadoop 之上,Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此,Hive 并不能够在大规模数据集上实现低延迟快速的查询,例如,Hive 在几百MB 的数据集上执行查询一般有分钟级的时间延迟。因此, Hive 并不适合那些需要低延迟的应用,例如,联机事务处理(OLTP)。Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,Hive 将用户的HiveQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。Hive 并非为联机事务处理而设计,Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。

    三、Hive的体系架构

    Hive架构图
    • 用户接口
        用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是 CLI,Cli 启动的时候,会同时启动一个 Hive 副本。Client 是 Hive 的客户端,用户连接至 Hive Server。在启动 Client 模式的时候,需要指出 Hive Server 所在节点,并且在该节点启动 Hive Server。 WUI 是通过浏览器访问 Hive。

    • 元数据存储
        Hive 将元数据存储在数据库中,如 mysql、derby。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。


      元数据存储
    • Driver
        这是 hive 的核心,包括 解析器,编译器,优化器,执行器;解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并随后由 MapReduce 调用执行。解析器检查 sql 语法是否正确;编译器把 sql 转换成 mr;优化器对 mr 进行优化;执行器执行 mr;
        编译器将一个Hive QL转换成Hive的最小的处理单元——操作符,每个操作符代表HDFS的一个操作或者一道MapReduce作业

    hive编译流程 编译模块.png

    四、Hive的存储结构

    首先,Hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织 Hive 中的表,只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。
      其次,Hive 中所有的数据都存储在 HDFS 中,Hive 中包含以下数据模型:表(Table),外部表(External Table),分区(Partition),桶(Bucket)。
      Hive 中的 Table 和数据库中的 Table 在概念上是类似的,每一个 Table 在 Hive 中都有一个相应的目录存储数据。例如,一个表 pvs,它在 HDFS 中的路径为:/wh/pvs,其中,wh 是在 hive-site.xml 中由 ${hive.metastore.warehouse.dir} 指定的数据仓库的目录,所有的 Table 数据(不包括 External Table)都保存在这个目录中。
      Partition 对应于数据库中的 Partition 列的密集索引,但是 Hive 中 Partition 的组织方式和数据库中的很不相同。在 Hive 中,表中的一个 Partition 对应于表下的一个目录,所有的 Partition 的数据都存储在对应的目录中。例如:pvs 表中包含 ds 和 city 两个 Partition,则对应于 ds = 20090801, ctry = US 的 HDFS 子目录为:/wh/pvs/ds=20090801/ctry=US;对应于 ds = 20090801, ctry = CA 的 HDFS 子目录为;/wh/pvs/ds=20090801/ctry=CA
      Buckets 对指定列计算 hash,根据 hash 值切分数据,目的是为了并行,每一个 Bucket 对应一个文件。将 user 列分散至 32 个 bucket,首先对 user 列的值计算 hash,对应 hash 值为 0 的 HDFS 目录为:/wh/pvs/ds=20090801/ctry=US/part-00000;hash 值为 20 的 HDFS 目录为:/wh/pvs/ds=20090801/ctry=US/part-00020
      External Table 指向已经在 HDFS 中存在的数据,可以创建 Partition。它和 Table 在元数据的组织上是相同的,而实际数据的存储则有较大的差异。
      Table 的创建过程和数据加载过程(这两个过程可以在同一个语句中完成),在加载数据的过程中,实际数据会被移动到数据仓库目录中;之后对数据对访问将会直接在数据仓库目录中完成。删除表时,表中的数据和元数据将会被同时删除。
      External Table 只有一个过程,加载数据和创建表同时完成(CREATE EXTERNAL TABLE ……LOCATION),实际数据是存储在 LOCATION 后面指定的 HDFS 路径中,并不会移动到数据仓库目录中。当删除一个 External Table 时,仅删除元数据,表中的数据不会真正被删除。

    五、Hive的安装

    1.下载hive-1.1.0-cdh5.7.0.tar.gz

    wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz
    
    1. 配置hive的环境变量
    vim ~/.bash_profile
    
    1. conf/hive-env.sh配置
    HADOOP_HOME=/root/app/hadoop-2.6.0-cdh5.7.0
    
    1. 配置hive-site.xml
    <?xml version="1.0" encoding="UTF-8" standalone="no"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    <configuration>
        <property>
        <name>javax.jdo.option.ConnectionURL</name>
            <value>jdbc:mysql://127.0.0.1:3306/hive?createDatabaseIfNotExist=true</value>
            </property>
        <property>
            <name>javax.jdo.option.ConnectionDriverName</name>
            <value>com.mysql.jdbc.Driver</value>
        </property>
        <property>
            <name>javax.jdo.option.ConnectionUserName</name>
            <value>root</value>
        </property>
        <property>
            <name>javax.jdo.option.ConnectionPassword</name>
            <value>xbm123456</value>
        </property>
    </configuration>
    
    1. 关键的一步
      拷贝mysql-connector的jar包到hive_dir/lib中
    wget http://central.maven.org/maven2/mysql/mysql-connector-java/5.1.27/mysql-connector-java-5.1.27.jar
    

    六、Hive的使用

    1. Hive的shell

    1.1. hive 命令行模式,直接输入#/hive/bin/hive的执行程序,或者输入#hive --service cli

    1.2. hive web界面的 (端口号9999) 启动方式

    #hive --service hwi&

    用于通过浏览器来访问hive

    http://hadoop0:9999/hwi/

    1.3. hive 远程服务 (端口号10000) 启动方式

    #hive --service hiveserver&

    2. hive基本操作

    2.1 DDL操作

    2.1.1 创建表

    建表语法
    CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
    
       [(col_name data_type [COMMENT col_comment], ...)]
    
       [COMMENT table_comment]
    
       [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
    
       [CLUSTERED BY (col_name, col_name, ...)
    
       [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
    
       [ROW FORMAT row_format]
    
       [STORED AS file_format]
    
       [LOCATION hdfs_path]
    

    说明:

    1、 CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXISTS 选项来忽略这个异常。

    2、 EXTERNAL关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION),Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。

    3、 LIKE 允许用户复制现有的表结构,但是不复制数据。

    4、指定列

    ROW FORMAT DELIMITED [FIELDS TERMINATED BY char] 
            [COLLECTION ITEMS TERMINATED BY char]
            [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]
          | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]
    

    用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。如果没有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED,将会使用自带的 SerDe。在建表的时候,用户还需要为表指定列,用户在指定表的列的同时也会指定自定义的 SerDe,Hive通过 SerDe 确定表的具体的列的数据。

    5、存储格式

    STORED AS SEQUENCEFILE|TEXTFILE|RCFILE
    

    如果文件数据是纯文本,可以使用 STORED AS TEXTFILE。如果数据需要压缩,使用 STORED AS SEQUENCEFILE。

    6、CLUSTERED BY

    对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是 针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

    把表(或者分区)组织成桶(Bucket)有两个理由:

    (1)获得更高的查询处理效率。桶为表加上了额外的结构,Hive 在处理有些查询时能利用这个结构。具体而言,连接两个在(包含连接列的)相同列上划分了桶的表,可以使用 Map 端连接 (Map-side join)高效的实现。比如JOIN操作。对于JOIN操作两个表有一个相同的列,如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以,可以大大较少JOIN的数据量。

    (2)使取样(sampling)更高效。在处理大规模数据集时,在开发和修改查询的阶段,如果能在数据集的一小部分数据上试运行查询,会带来很多方便。

    具体实例

    1、 创建内部表mytable。

    hive> create table if not exists mytable(sid int,sname string)
       > row format delimited fields terminated by ',' stored as textfile; 
    

    2、 创建外部表pageview。

     hive> create external table if not exists pageview(
        > pageid int,
        > page_url string comment 'The page URL'
        > )
        > row format delimited fields terminated by ','
        > location 'hdfs://192.168.158.171:9000/user/hivewarehouse/';
    

    3、 创建分区表invites。

    hive> create table student_p(
        > Sno int,
        > Sname string,
        > Sex string,
        > Sage int,
        > Sdept string) 
        > partitioned by(part string) 
        > row format delimited fields terminated by ','stored as textfile;
    

    4、 创建带桶的表student。

     hive> create table student(id int,age int,name string)
        > partitioned by(stat_data string)
        > clustered by(id) sorted by(age) into 2 buckets
        > row format delimited fields terminated by ',';
    

    2.1.2 修改表

    增加/删除分区

    语法结构

    ALTER TABLE table_name ADD [IF NOT EXISTS] partition_spec [ LOCATION 'location1' ] partition_spec [ LOCATION 'location2' ] ...
    
    partition_spec:
    
    : PARTITION (partition_col = partition_col_value, partition_col = partiton_col_value, ...)
    
    ALTER TABLE table_name DROP partition_spec, partition_spec,...
    

    具体实例

    alter table student_p add partition(part='a') partition(part='b');
    
    重命名表

    语法结构

    ALTER TABLE table_name RENAME TO new_table_name
    

    具体实例

     hive> alter table student rename to student1;
    
    增加/更新列

    语法结构

    ALTER TABLE table_name ADD|REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...)
    

    注:ADD是代表新增一字段,字段位置在所有列后面(partition列前),REPLACE则是表示替换表中所有字段。

    ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_name column_type [COMMENT col_comment] [FIRST|AFTER column_name]
    

    具体实例

    2.1.3 显示命令

    show tables
    
    show databases
    
    show partitions
    
    show functions
    
    desc extended t_name;
    
    desc formatted table_name;
    

    2.2 ** DML操作**

    2.2.1 Load

    语法结构

    LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO
    
    TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]
    

    说明:

    1、 Load 操作只是单纯的复制/移动操作,将数据文件移动到 Hive 表对应的位置。

    2、 filepath:

    相对路径,例如:project/data1

    绝对路径,例如:/user/hive/project/data1

    包含模式的完整 URI,列如:

    hdfs://namenode:9000/user/hive/project/data1

    3、 LOCAL关键字

    如果指定了 LOCAL, load 命令会去查找本地文件系统中的 filepath。

    如果没有指定 LOCAL 关键字,则根据inpath中的uri查找文件

    4、 OVERWRITE 关键字

    如果使用了 OVERWRITE 关键字,则目标表(或者分区)中的内容会被删除,然后再将 filepath 指向的文件/目录中的内容添加到表/分区中。

    如果目标表(分区)已经有一个文件,并且文件名和 filepath 中的文件名冲突,那么现有的文件会被新文件所替代。

    具体实例

    1、 加载相对路径数据。

    hive> load data local inpath 'sc.txt' overwrite into table sc;

    2、 加载绝对路径数据。

    hive> load data local inpath '/home/hadoop/hivedata/students.txt' overwrite into table student;

    3、 加载包含模式数据。

    hive> load data inpath 'hdfs://mini1:9000/hivedata/course.txt' overwrite into table course;

    4、 OVERWRITE关键字使用。

    hive> load data inpath 'hdfs://mini1:9000/hivedata/course.txt' overwrite into table course;

    2.2.2 Insert

    将查询结果插入Hive表

    语法结构

    INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement1 FROM from_statement
    

    Multiple inserts:

    FROM from_statement 
    INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement1
    
    [INSERT OVERWRITE TABLE tablename2 [PARTITION ...] select_statement2] ...
    

    Dynamic partition inserts:

    INSERT OVERWRITE TABLE tablename PARTITION (partcol1[=val1], partcol2[=val2] ...) select_statement FROM from_statement
    

    具体

    1、基本模式插入。

    2、多插入模式。

    3、自动分区模式。

    导出表数据

    语法结构

    INSERT OVERWRITE [LOCAL] DIRECTORY directory1 SELECT ... FROM ...
    

    multiple inserts:

    FROM from_statement
    
    INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1
    
    [INSERT OVERWRITE [LOCAL] DIRECTORY directory2 select_statement2] ...
    

    具体实例

    1、导出文件到本地。

     hive> insert overwrite local directory '/home/hadoop/hivedata/outdata'
        > select * from student;
    

    说明:
    数据写入到文件系统时进行文本序列化,且每列用^A来区分,\n为换行符。用more命令查看时不容易看出分割符,

    可以使用: sed -e 's/\x01/|/g' filename来查看。
    如:sed -e 's/\x01/,/g' 000000_0

    2、导出数据到HDFS。

     hive> insert overwrite directory 'hdfs://mini1:9000/hivedata/outdatasc'
        > select * from sc;
    

    2.2.3 SELECT

    基本的Select操作

    语法结构

    SELECT [ALL | DISTINCT] select_expr, select_expr, ...
    
    FROM table_reference
    
    [WHERE where_condition]
    
    [GROUP BY col_list [HAVING condition]]
    
    [CLUSTER BY col_list
    
      | [DISTRIBUTE BY col_list] [SORT BY| ORDER BY col_list]
    
    ]
    
    [LIMIT number]
    

    注:1、order by 会对输入做全局排序,因此只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。

    2、sort by不是全局排序,其在数据进入reducer前完成排序。因此,如果用sort by进行排序,并且设置mapred.reduce.tasks>1,则sort by只保证每个reducer的输出有序,不保证全局有序。

    3、distribute by根据distribute by指定的内容将数据分到同一个reducer。

    4、Cluster by 除了具有Distribute by的功能外,还会对该字段进行排序。因此,常常认为cluster by = distribute by + sort by

    具体实例

    1、获取年龄大的3个学生。

     hive> select sno,sname,sage from student order by sage desc limit 3;
    

    2、查询学生信息按年龄,降序排序。

    hive> select sno,sname,sage from student sort by sage desc;
    
    hive> select sno,sname,sage from student order by sage desc;
    
    hive> select sno,sname,sage from student distribute by sage;
    

    3、按学生名称汇总学生年龄。

    hive> select sname,sum(sage) from student group by sname;
    

    2.3 Hive Join

    语法结构

    join_table:
    
      table_reference JOIN table_factor [join_condition]
    
      | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition
    
      | table_reference LEFT SEMI JOIN table_reference join_condition
    

    Hive 支持等值连接(equality joins)、外连接(outer joins)和(left/right joins)。Hive 不支持非等值的连接(后续版本已经支持),因为非等值连接非常难转化到 map/reduce 任务。

    另外,Hive 支持多于 2 个表的连接。

    写 join 查询时,需要注意几个关键点:

    1. 只支持等值join

    例如:

      SELECT a.* FROM a JOIN b ON (a.id = b.id)
    
      SELECT a.* FROM a JOIN b ON (a.id = b.id AND a.department = b.department)
    

    是正确的,然而:

      SELECT a.* FROM a JOIN b ON (a.id>b.id)
    

    是错误的。

    tips:后续版本已经可以支持不等值

    2. 可以 join 多于 2 个表。

    例如

      SELECT a.val, b.val, c.val FROM a 
        JOIN b ON (a.key = b.key1) 
        JOIN c ON (c.key = b.key2)
    

    如果join中多个表的 join key 是同一个,则 join 会被转化为单个 map/reduce 任务,例如:

      SELECT a.val, b.val, c.val FROM a 
        JOIN b
        ON (a.key = b.key1) 
        JOIN c
        ON (c.key = b.key1)
    

    被转化为单个 map/reduce 任务,因为 join 中只使用了 b.key1 作为 join key。

    SELECT a.val, b.val, c.val FROM a 
      JOIN b ON (a.key = b.key1)
      JOIN c ON (c.key = b.key2)
    

    而这一 join 被转化为 2 个 map/reduce 任务。因为 b.key1 用于第一次 join 条件,而 b.key2 用于第二次 join。

    3.join 时,每次 map/reduce 任务的逻辑:
    reducer 会缓存 join 序列中除了最后一个表的所有表的记录,再通过最后一个表将结果序列化到文件系统。这一实现有助于在 reduce 端减少内存的使用量。实践中,应该把最大的那个表写在最后(否则会因为缓存浪费大量内存)。例如:

     SELECT a.val, b.val, c.val FROM a
        JOIN b ON (a.key = b.key1) 
        JOIN c ON (c.key = b.key1)
    

    所有表都使用同一个 join key(使用 1 次 map/reduce 任务计算)。Reduce 端会缓存 a 表和 b 表的记录,然后每次取得一个 c 表的记录就计算一次 join 结果,类似的还有:

      SELECT a.val, b.val, c.val FROM a
        JOIN b ON (a.key = b.key1) 
        JOIN c ON (c.key = b.key2)
    

    这里用了 2 次 map/reduce 任务。第一次缓存 a 表,用 b 表序列化;第二次缓存第一次 map/reduce 任务的结果,然后用 c 表序列化。

    4.LEFT,RIGHT 和 FULL OUTER 关键字用于处理 join 中空记录的情况

    例如:

      SELECT a.val, b.val FROM
         a LEFT OUTER  JOIN b ON (a.key=b.key)
    

    对应所有 a 表中的记录都有一条记录输出。输出的结果应该是 a.val, b.val,当 a.key=b.key 时,而当 b.key 中找不到等值的 a.key 记录时也会输出:

    a.val, NULL

    所以 a 表中的所有记录都被保留了;

    “a RIGHT OUTER JOIN b”会保留所有 b 表的记录。

    Join 发生在 WHERE 子句之前。如果你想限制 join 的输出,应该在 WHERE 子句中写过滤条件——或是在 join 子句中写。这里面一个容易混淆的问题是表分区的情况:

      SELECT a.val, b.val FROM a
      LEFT OUTER JOIN b ON (a.key=b.key)
      WHERE a.ds='2009-07-07' AND b.ds='2009-07-07'
    

    会 join a 表到 b 表(OUTER JOIN),列出 a.val 和 b.val 的记录。WHERE 从句中可以使用其他列作为过滤条件。但是,如前所述,如果 b 表中找不到对应 a 表的记录,b 表的所有列都会列出 NULL,包括 ds 列。也就是说,join 会过滤 b 表中不能找到匹配 a 表 join key 的所有记录。这样的话,LEFT OUTER 就使得查询结果与 WHERE 子句无关了。解决的办法是在 OUTER JOIN 时使用以下语法:

      SELECT a.val, b.val FROM a LEFT OUTER JOIN b
    
      ON (a.key=b.key AND
    
          b.ds='2009-07-07' AND
    
          a.ds='2009-07-07')
    

    这一查询的结果是预先在 join 阶段过滤过的,所以不会存在上述问题。这一逻辑也可以应用于 RIGHT 和 FULL 类型的 join 中。

    Join 是不能交换位置的。无论是 LEFT 还是 RIGHT join,都是左连接的。

      SELECT a.val1, a.val2, b.val, c.val
    
      FROM a
    
      JOIN b ON (a.key = b.key)
    
      LEFT OUTER JOIN c ON (a.key = c.key)
    

    先 join a 表到 b 表,丢弃掉所有 join key 中不匹配的记录,然后用这一中间结果和 c 表做 join。这一表述有一个不太明显的问题,就是当一个 key 在 a 表和 c 表都存在,但是 b 表中不存在的时候:整个记录在第一次 join,即 a JOIN b 的时候都被丢掉了(包括a.val1,a.val2和a.key),然后我们再和 c 表 join 的时候,如果 c.key 与 a.key 或 b.key 相等,就会得到这样的结果:NULL, NULL, NULL, c.val

    具体实例

    1、 查询选修了课程的学生姓名

    hive> select distinct Sname from student inner join sc on student.Sno=Sc.Sno; 
    

    2.查询选修了3门以上的课程的学生学号

    hive> select Sno from (select Sno,count(Cno) CountCno from sc group by Sno)a where a.CountCno>3;
    

    相关文章

      网友评论

          本文标题:Hive基础及进阶

          本文链接:https://www.haomeiwen.com/subject/twmlgktx.html