Hive扩展功能(一)--Parquet

作者: 咸鱼翻身记 | 来源:发表于2017-02-15 16:35 被阅读100次

    软件环境:

    linux系统: CentOS6.7
    Hadoop版本: 2.6.5
    zookeeper版本: 3.4.8
    

    </br>

    主机配置:

    一共m1, m2, m3这三部机, 每部主机的用户名都为centos
    192.168.179.201: m1 
    192.168.179.202: m2 
    192.168.179.203: m3 
    
    m1: Zookeeper, Namenode, DataNode, ResourceManager, NodeManager, Master, Worker
    m2: Zookeeper, Namenode, DataNode, ResourceManager, NodeManager, Worker
    m3: Zookeeper, DataNode, NodeManager, Worker
    
    资料:
    官方资料:
        https://cwiki.apache.org/confluence/display/Hive/Parquet
    
    注意:
    Hive扩展Parquet有以下两种方案:(hive自0.13版本以后已自带paruqet功能, 不必再扩展parquet功能)
    

    </br>

    1.方案一:
    (1) 下载Parquet扩展包

    通过yum下载parquet资源包 (此方案大多数情况下无法找到parquet, 原因是没有配置YUM源, 如何配置YUM源请自行查找资料)

    sudo yum -y install parquet
    
    (2)将下载好的扩展包拷贝到指定位置

    将下载到/usr/lib/parquet目录下的jar(除javadoc.jarsources.jar外)拷贝到$HIVE_HOME/lib目录下

    cp  /usr/lib/parquet/*  $HIVE_HOME/lib
    

    </br>

    2.方案二:
    (1)打开$HIVE_HOME/lib目录
    cd  /home/centos/soft/hive/lib
    
    (2)下载Parquet资源包

    执行以下指令, 下载parquet资源包(注意:parquet1.2.5版本对应Hive 0.12版本,每个版本的Hive对应的Parquet版本不同, 具体Hive所对应的版本请自行下载源码查看)

    for f in parquet-avro parquet-cascading parquet-column parquet-common parquet-encoding parquet-generator parquet-hadoop parquet-hive parquet-pig parquet-pig-bundle parquet-scrooge parquet-test-hadoop2 parquet-thrift
    do
        curl -O https://oss.sonatype.org/service/local/repositories/releases/content/com/twitter/${f}/1.2.5/${f}-1.2.5.jar
        curl -O https://oss.sonatype.org/service/local/repositories/releases/content/com/twitter/parquet-format/1.2.5/parquet-format-1.2.5.jar
    done
    

    </br>
    </br>
    </br>

    相关文章

      网友评论

        本文标题:Hive扩展功能(一)--Parquet

        本文链接:https://www.haomeiwen.com/subject/ahmqwttx.html