美文网首页我爱编程
Hive编程指南读书笔记0001

Hive编程指南读书笔记0001

作者: jackLee | 来源:发表于2016-08-30 17:19 被阅读153次

Hive概述

  • 1.Hive提供了一个被称为Hive查询语言(简称HiveQL或HQL)的SQL方言,来查询存储在Hadoop集群中的数据。其实,hive的功能远不止查询,还有对Hadoop集群上数据的各种操作的能力。
  • 2.Hive可以将大多数的查询转换为MapReduce任务(job),进而在街上一个令人熟悉的SQL抽象的同时,拓展Hadoop的可扩展性。
  • 3.Hive最适合于数据仓库应用程序,使用该应用程序进行相关的静态数据分析,不需要快速响应给出结果,而且数据本身不会频繁变化。
  • 4.Hive的缺陷:
    • 1.Hive最大的限制是不支持**纪录级别的更新,插入或删除操作;
    • 2.Hive查询延时比较严重,传统数据库在秒级别可以完成的查询,在Hive中需要更长时间
    • 3.Hive不支持事务

数据类型和文件格式

Hive支持关系型数据库中的大多数基本数据,同时也支持3种集合数据类型,如下。

Hive基本数据类型

以上是基本数据类型,需要注意的是所有的这些数据类型都是对Java接口的实现,因此,这些数据类型的具体行为细节和Java中对应的数据类型完全一致。如:STRING是Java中的String,FLOAT是Java中的float。另外,和其他SQL一样,以上名称类型都是保留字。

Hive支持structs,maps,arrays这三种集合类型。


Hive集合类型

以上名称类型都是保留字。
以上集合类型是Hive区别于其他大部分关系型数据库的特色。

  • 采用以上数据模型创建一个员工信息表:

<code>
CREATE TABLE employees(
name STRING,
salary FLOAT,
subordinates ARRAY<STRING>,
deductions MAP<STRING,FLOAT>,
address STRUCT<street:STRING,city:STRING,state:STRING,zip:INT>
);
</code>

分隔符:

  • 分隔符的作用:将表格转换为文本时,用分隔符标识文字分隔的位置,或在将文本转换为表格时,用其标识新行或新列的起始位置。一般用户比较熟悉以逗号或者制表符为分隔符的文件文本,逗号符分隔值即CSV,制表符分隔值即TSV
  • 默认分隔符: Hive默认分隔符Hive默认分隔符
  • 指定分隔符:用户可以根据需要指定分隔符,当然需要注意的是在指定分隔符的时候,ROW FORMAT DELIMITED这组关键字必须要写在其他子句之前。
  • 警告:分隔符只会影响到Hive在读取到文件后如何进行划分。

展开阅读


HiveQL:数据定义

HiveQL是Hive的查询语言,它不完全遵循任何一种ANSI SQL标准的修订版,在各大SQL方言中,它可能是MySQL方言最为接近。二者最大不同是:HiveQL不支持行级别的数据的插入,更新和删除操作,也不支持事务,查询延时较高。

所谓HiveQL的数据定义语言是指:用于创建,修改和删除数据库,表,视图,函数和索引,简而言之是对表结构的操作。

所谓HiveQL的数据操作语言是指:用于将数据导入到Hive的表中,以及将数据抽取到文件系统中。还包括对数据的查询,分组,过滤,连接等操作。

  • 区别:数据定义指定义数据表的结果,数据操作是指对数据实行增删改查操作。

拓展阅读:数据定义语言和数据操作语言的区别

Hive下的数据库

  • Hive中数据库的概念本质上是表的一个目录或者命名空间。对于具有很多组和用户的大集群来说,这是非常有用的,因为这样可以避免表命名冲突
  • 如果用户没有显示的指定数据库,那么将会使用默认数据库default。使用命令:SHOW DATABASES可以查看Hive中所包含的数据库。
  • Hive会为每个数据库创建一个目录,数据库中的表以子目录的形式存储。但是default数据库除外,这个数据库没有自己的目录。数据库的目录会在hive.metastore.warehouse.dir所配置的目录下创建,比如在默认配置下创建数据库financials时,该数据库目录为:/user/hive/warehouse/financials.db;当然用户可以通过LOCATION命令修改db位置。

注意:Hive定位为数据仓库而不是数据库,Hive和Hbase根据不同的业务需求各司其职。Hive主要用于数据的查询和分析,而并非数据的增删改查CRUD操作。Hbase是面向列的noSQL数据库,用于存储数据。

网友的点评:hbase就是一个存储key-value的大map,hive是一个做统计处理的工具,类似于awk类的。
所以如果你是一条一条读写记录用hbase,如果需要对大量数据做分析统计用hive。

拓展阅读:

相关文章

  • 2017年10月26

    《Hive编程指南》第4章《Hive编程指南》第5章《Hive编程指南》第6章《Hive编程指南》第7章

  • Hive编程指南读书笔记0001

    Hive概述 1.Hive提供了一个被称为Hive查询语言(简称HiveQL或HQL)的SQL方言,来查询存储在H...

  • 2017年10月24日

    大数据系统基础 4.7-4.14《Hive编程指南》第1章《Hive编程指南》第2章《Hive编程指南》第3章

  • Hive编程指南.epub

    【下载地址】 《Hive编程指南》是一本ApacheHive的编程指南,旨在介绍如何使用Hive的SQL方法——H...

  • 《Hive编程指南.pdf》PDF高清完整版-免费下载

    《Hive编程指南.pdf》PDF高清完整版-免费下载 《Hive编程指南.pdf》PDF高清完整版-免费下载 下...

  • Hive编程指南笔记整理

    hive编程指南阅读笔记 1.基础操作 1.1.启动hive HIVE_HOME$ bin/hive 1.2.1....

  • Hive查询语句中关于浮点数的比较

    /* 本文内容来自O'REILLY系列的《Programming Hive》的中文译本《Hive编程指南》的6.2...

  • 《Hive编程指南》读书笔记

    第一章 基础知识 1.1 MapReduce和Hadoop基础 Hive不支持记录级别的更新、插入或者删除、Hiv...

  • Hive编程指南

    1.数据库 创建数据库create database if not exists xxx;查看已有数据库show ...

  • Hive编程指南

    前言 Hive是Hadoop生态系统中必不可少的一个工具,它提供了一种SQL(结构化查询语言)方言,可以查询存储在...

网友评论

    本文标题:Hive编程指南读书笔记0001

    本文链接:https://www.haomeiwen.com/subject/iutqettx.html