分布式SQL查询引擎-Hive

作者: 中起之星 | 来源:发表于2018-10-18 11:41 被阅读23次

分布式SQL查询引擎-Hive
spark sql快速入门
今日份打卡 238/365
使用presto数据库在字符数字比较中遇到的坑
分布式 SQL 引擎
Hive on Hbase 的性能问题
大数据平台建设 —— SQL查询引擎之Presto
玩转大数据计算之Hive
Hive Hooks介绍
全面探究Hive on Spark

分布式SQL查询引擎方面，了解到的有Hive、SparkSQL、Presto、Flink，可以说各有侧重，今天说一下Hive。

为什么要用Hive

大数据生态下，通过Hadoop MapReduce，实现将计算分割成多个处理单元，然后分散到一群家用或服务器级别的硬件上，从而降低成本并提供可伸缩性；这个计算模型下是HDFS，这是个“可插拔的“文件系统。不过，这里存在一个问题，就是用户如何从一个现有的数据基础架构转移到Hadoop上，而这个基础架构是基于关系型数据库和结构化查询语句（SQL）？
这就是Hive出现的原因，Hive提供了被称为Hive查询语言的（或称为HiveQL或HQL）的SQL方言，来查询存储在Hadoop集群中的数据。Hive将大多数据的查询转换为MapRecue任务(job）。

Hive安装

Hive使用环境变量HADOOP_HOME来指定Hadoop的所有相关JAR和配置文件，因此在安装之前请确认下是否设置好了这个环境变量。
$cd~$ curl -o http://archive.apache.org/dis/hive/hive-0.9.0/hive-0.9.0-bin.tar.gz
$tar-xzfhive-0.9.0.tar.gz$ sudo mkdir-p /user/hive/warehouse
$sudo chmod a+rwx /user/hive/warehouse

可以定义HIVE_HOME环境变量
$sudo echo "export HIVE_HOME=$ PWD/hive-0.9.0">/etc/profile.d/hive.sh
$sudo echo "PATH=$ PATH: $HIVE_HOME/bin" >> /etc/profile.d/hive.sh$ ./etc/profile

Hive组成

主要包含三个部分：
1.代码本身，在 $HIVE_HOME/lib下可以看到许多jar，例如hive-exec*.jar，hive-metastore*.ja，每个jar文件都实现了hive功能中某个特定的部分。 2.可执行文件，在$ HIVE_HOME/bin下，包含hive的命令行界面CLI，CLI是使用hive最常用的方式，一般会使用小写的hive代替。CLI用于提供交互式的界面供输入语句或用户执行hive语句的脚本。
3.metastore service（元数据服务），所有的hive客户端都需要元数据服务，hive使用这个服务来存储表模式信息和其他元数据信息。通常会使用关系型数据库来存储这些信息，默认使用内置的DerbySQL服务器，其可以提供有限的、单进程的存储服务。例如，当使用Derby时，用户不能执行2个并发的HiveCLI实例，然而，如果是在个人计算机上或某些开发任务上使用的话这样也没有问题。对于集群来说，需要使用MYSQL或类似的关系型数据库。
另外，hive还有一些组件，Thrift服务提供可远程访问的其他进程的功能，也提供JDBC和ODBC访问Hive的功能。Hive还提供了一个简单的网页界面HWI，提供远程访问Hive服务。

Hive启动

使用 $HIVE_HOME/bin/hive命令$ cd $HIVE_HOME$ bin/hive
hive>CREATETABLEx(aINT);
hive>SELECT*fromx;
hive>DROPTABLEx;
hive>exit;

Hive命行

[root@TESTPBSDIGDATAMASTER01 ~]# hive --help
Service List: beeline cleardanglingscratchdir cli help hiveburninclient hiveserver2 hiveserver hwi jar lineage metastore metatool orcfiledump rcfilecat schemaTool version
Parameters parsed:
--auxpath : Auxillary jars
--config : Hive configuration directory
--service : Starts specific service/component. cli is default
Parameters used:
HADOOP_HOME or HADOOP_PREFIX : Hadoop install directory
HIVE_OPT : Hive options
For help on a particular service:
./hive --service serviceName --help
Debug help: ./hive --debug --help

需要注意ServiceList:后面的内容，这里提供了几个服务，包括我们绝大多数据时间将要使用的CLI。用户可以通过--servicename服务名称来启用某个服务。

常用SQL

*显示数据库 **
hive>showdatabases;
OK
Default
hive>showdatabaselike'h.';

**创建数据库 **
hive>create database test_test001;
use命令用于将某个数据库设置为用户当前的工作数据库
hive>usetest_test001;
设置当前工作数据库后，即可查询所有表
hive>show tables；
删除数据库
hive>drop database if exists test_test001;

**创建数据 **
create table if no texists mydb.employees(
name string comment 'emplyeename',
Salaryfloat
)

**删除表 **
drop table if exists test_test001;

修改表
alter table只会修改元数据

**表重命名 **
alter table test_test001renametotes;
set hive.cli.print.header=true; // 打印列名
set hive.cli.print.row.to.vertical=true; // 开启行转列功能, 前提必须开启打印列名功能
set hive.cli.print.row.to.vertical.num=1; // 设置每行显示的列数

分布式SQL查询引擎-Hive
分布式SQL查询引擎方面，了解到的有Hive、SparkSQL、Presto、Flink，可以说各有侧重，今天说一...
spark sql快速入门
常用的sql查询引擎 hive，impala，hive on spark，presto（京东），drill（支持h...
今日份打卡 238/365
技术文章统一es，hive，mysql的SQL查询引擎来自360
使用presto数据库在字符数字比较中遇到的坑
1.事情的始末公司的sql查询平台提供了HIVE和Presto两种查询引擎来查询hive中的数据，由于prest...
分布式 SQL 引擎
分布式 SQL 引擎使用 JDBC/ODBC 或命令行接口，Spark SQL 还可以作为一个分布式查询引擎。在...
Hive on Hbase 的性能问题
hbase 是NoSql 数据库，可以做 oltp，hive 是基于mapReduce的 sql 查询引擎，可以...
大数据平台建设 —— SQL查询引擎之Presto
大数据查询引擎Presto简介 SQL on Hadoop： Hive的出现让技术人员可以通过类SQL的方式对批量...
玩转大数据计算之Hive
Hive版本：我们使用2.1.1的版本安装 Hive介绍：能够让你使用SQL语言查询分布式文件如HDFS。 Hiv...
Hive Hooks介绍
Hive作为SQL on Hadoop最稳定、应用最广泛的查询引擎被大家所熟知。但是由于基于MapReduce，查...
全面探究Hive on Spark
目标在CDH集群的查询client中（包括webUI如HUE）使用Spark作为Hive-SQL的执行引擎。调...