Hive扩展功能(一)--Parquet

作者: 咸鱼翻身记 | 来源:发表于2017-02-15 16:35 被阅读100次

Hive扩展功能(一)--Parquet
spark 读取 hdfs 数据分区规则
SparkSQL操作外部数据源
123.Impala查询缓慢问题与解决
Hive扩展功能(七)--Hive On Spark
hive存储parquet表
Hive- UDF&GenericUDF
spark 使用记录case
Hive扩展功能(二)--HWI接口
parquet文件格式对常用系统的支持

软件环境:

linux系统: CentOS6.7
Hadoop版本: 2.6.5
zookeeper版本: 3.4.8

主机配置:

一共m1, m2, m3这三部机, 每部主机的用户名都为centos

192.168.179.201: m1 
192.168.179.202: m2 
192.168.179.203: m3 

m1: Zookeeper, Namenode, DataNode, ResourceManager, NodeManager, Master, Worker
m2: Zookeeper, Namenode, DataNode, ResourceManager, NodeManager, Worker
m3: Zookeeper, DataNode, NodeManager, Worker

资料:

官方资料:
    https://cwiki.apache.org/confluence/display/Hive/Parquet

注意:

Hive扩展Parquet有以下两种方案:(hive自0.13版本以后已自带paruqet功能, 不必再扩展parquet功能)

1.方案一:

(1) 下载Parquet扩展包

通过yum下载parquet资源包 (此方案大多数情况下无法找到parquet, 原因是没有配置YUM源, 如何配置YUM源请自行查找资料)

sudo yum -y install parquet

(2)将下载好的扩展包拷贝到指定位置

将下载到/usr/lib/parquet目录下的jar(除javadoc.jar和sources.jar外)拷贝到$HIVE_HOME/lib目录下

cp  /usr/lib/parquet/*  $HIVE_HOME/lib

2.方案二:

(1)打开`$HIVE_HOME/lib`目录

cd  /home/centos/soft/hive/lib

(2)下载Parquet资源包

执行以下指令, 下载parquet资源包(注意:parquet1.2.5版本对应Hive 0.12版本,每个版本的Hive对应的Parquet版本不同, 具体Hive所对应的版本请自行下载源码查看)

for f in parquet-avro parquet-cascading parquet-column parquet-common parquet-encoding parquet-generator parquet-hadoop parquet-hive parquet-pig parquet-pig-bundle parquet-scrooge parquet-test-hadoop2 parquet-thrift
do
    curl -O https://oss.sonatype.org/service/local/repositories/releases/content/com/twitter/${f}/1.2.5/${f}-1.2.5.jar
    curl -O https://oss.sonatype.org/service/local/repositories/releases/content/com/twitter/parquet-format/1.2.5/parquet-format-1.2.5.jar
done

网友评论

本文标题：Hive扩展功能(一)--Parquet

本文链接：https://www.haomeiwen.com/subject/ahmqwttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Hive扩展功能(一)--Parquet

软件环境:

主机配置:

一共m1, m2, m3这三部机, 每部主机的用户名都为centos

资料:

注意:

1.方案一:

(1) 下载Parquet扩展包

(2)将下载好的扩展包拷贝到指定位置

</br>

2.方案二:

(1)打开`$HIVE_HOME/lib`目录

(2)下载Parquet资源包

相关文章

Hive扩展功能(一)--Parquet

spark 读取 hdfs 数据分区规则

SparkSQL操作外部数据源

123.Impala查询缓慢问题与解决

Hive扩展功能(七)--Hive On Spark

hive存储parquet表

Hive- UDF&GenericUDF

spark 使用记录case

Hive扩展功能(二)--HWI接口

parquet文件格式对常用系统的支持

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Hive在简书

玩转大数据

大数据

Hive扩展功能(一)--Parquet

软件环境:

主机配置:

一共m1, m2, m3这三部机, 每部主机的用户名都为centos

资料:

注意:

1.方案一:

(1) 下载Parquet扩展包

(2)将下载好的扩展包拷贝到指定位置

</br>

2.方案二:

(1)打开$HIVE_HOME/lib目录

(2)下载Parquet资源包

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

(1)打开`$HIVE_HOME/lib`目录