--------hive 数据仓库
hive底层执行引擎有 MapReduce Tez Spark
压缩 GZIP LZO Snappy BZIP2等
存储 TextFile SequenceFile RCFile ORC Parquet
UDF 自定义函数
环境搭建
1)hive下载 http://archive.clordera.com/cdh5/cdh/5/
wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0
2)解压 tar -zxvf hive-1.1.0-cdh5.7.0.tar.gz -C ~/app/
3)配置 ~/.bash_profile
export HIVE_HOME =/home/hadoop/app/hive-1.1.0-cdh5.7.0
export PATH=$HIVE_HOME/bin:$PATH
事先安装一个mysql yum install xxx
cp hive-env.sh.template hive-env.sh
vi hive-env.sh
HADOOP_HOME=hadoop根目录
vi hive-site.xml
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/sparksql?createDatabaseIfNotExist=true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>z
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>root</value>
</property>
</configuration>
-
进入hive根目录
cd lib
将mysql的驱动包 拷贝到这里 驱动包可以自己下载(mysql-connector-java-5.1.27-bin.jar之类) -
启动hive
进入hive根目录
cd bin
./hive
-----hive 基础操作
创建hive表
create table hive_wordcount2(context string);
此时mysql中的sparksql库的TBLS中就有数据了
加载数据到hive表
LOAD DATA LOCAL INPATH '/home/hadoop/data/hello.txt' INTO TABLE hive_wordcount2
查询hive表
select word,count(1) from hive_wordcount2 lateral view explode(split(context,'\t')) wc as word group by word;
lateral view explode 把每行记录按照指定分隔符拆解
在yarn的web页面上 可以看到我们执行过的语句
hive ql 提交执行以后会产生mapreduce作业 并在yarn上运行
网友评论