美文网首页
冰解的破-hive

冰解的破-hive

作者: 大佛爱读书 | 来源:发表于2018-07-04 16:41 被阅读0次
    hive

    Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

    Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上,控制分隔符,也允许用户指定数据格式。

    学习整理:

    • hive开启分区的配置方法?

    个人认为这里所指定的开启分区应该是指开启动态分区,so具体配置如下:

    hive.exec.dynamic.partition=true //是否开启分区功能,默认为false;
    hive.exec.dynamic.partition.mode=nonstrict //默认为strict,表示至少要有一分区为静态;nonstrict表示可以全为动态分区;
    hive.exec.max.dynamic.partitions.pernode=100 //每个执行的MR节点上,最大可以创建多少动态分区,默认100;
    hive.exec.max.dynamic.partitions=1000 //所有执行的MR节点上,最大一共可以创建多少动态分区,默认1000;
    hive.exec.max.created.files=10000 //整个MR Job中一共可以创建多少HDFS文件,默认100000;
    hive.error.on.empty.partition=true //当有空分区生成时,是否报异常,默认false。
    
    • hive授权访问某表命令?
    GRANT
        priv_type [, priv_type ] ...
        ON table_or_view_name
        TO principal_specification [, principal_specification] ...
        [WITH GRANT OPTION];
    
    principal_specification
      : USER user
      | ROLE role
      
    priv_type
      : INSERT | SELECT | UPDATE | DELETE | ALL
    

    具体可见:下面的hive权限管理。

    • hive支持几种文件存储格式?

    hive支持行存储格式包括:textfile(默认,行存储),squencefile(行存储),rcfile(行列存储),parquet(列存储)。
    textfile:默认存储格式。
    squencefile:hadoop api提供的一种二进制文件支持,可分割,可压缩,支持 none,record,block三种压缩选项,其中block压缩率最高。
    rcfile:行列存储相结合的一种方式,按行分组后再按列存取,按行查找快,按列可压缩并减少io开销。
    orcfile:rcfile的改良版。
    parquet:一种优化过的列存储,压缩性能比较好,同时表扫描和反序列化都比较快。
    这儿补充一点有关压缩存储的一些知识:
    首先hive的压缩要分为中间结果的压缩和最终结果的压缩,中间结果压缩是指MapReduce任务中,map阶段结束后的中间结果可以进行压缩以节省带宽,但因为需要在下一步reduce阶段使用,所以对解压速度有一定要求,常见的中间结果压缩技术主要使用LZO和Snappy。而对于最终结果的压缩,我们主要考虑存储空间的需要,技术使用GZIP和BZIP2。
    还有一点就是HDFS存储文件的时候会按64M进行分片,每一个分片文件会对应一个mapper来处理以实现并行,但压缩算法并非都支持数据分割,所以我们应该尽量选用可分割的压缩算法(BZip2、LZO、Snappy支持分割,Gzip不支持分割)。

    • 静态分区(sp)和动态分区(dp)?

    其实hive所谓分区就是对应着文件目录中的文件夹,静态分区和动态分区的区别主要是是否需要我们手动指定,静态分区一般在编译的时候就确定了,而动态分区则需要hql在执行的过程中根据select出来的值来确定。
    总的说静态分区用于比较固定的内容,如果数据存储需要产生很多子文件夹的话建议用开启动态分区。
    注意:

    1. 动态分区和静态分区可混合使用,但静态分区需要在前。
    2. 插入分区表语句中,分区字段对应select语句中最后的几个字段。
    • hive权限管理

    在讨论hive权限之前,先说说hive的使用场景。

    1. hive作为表存储层,提供表抽象和metastore的存储,用户直接访问hdfs和metastore,我们熟悉的有Apache Pig,MapReduce,Cloudera Impala, Facebook Presto, Spark SQL (这些都使用HCatalog api)。
    2. hive作为sql查询引擎,这也是hive最常用的,分为两个子方向:
      a. hive command line(如:Hive CLI ),这些用户拥有对于hdfs和hive metastore的直接访问权。
      b.ODBC/JDBC 和其他的 HiveServer2 API(如:Beeline CLI),它们没有直接访问hdfs和metastore的能力,只能通过HiveServer2来间接访问。

    为此,hive提供了不同的授权模型来满足相应的需求 。

    1. Storage Based Authorization in the Metastore Server:适用于1和2a, 数据的访问并不取决于hive的设置,而是交由HDFS的权限管理(即目录、文件的rw来控制用户读写)。若想要访问诸如databases、tables、partitions这类metadata object,你需要有文件系统中对应目录的访问权限。当然你也可以通过以终端用户身份运行hiveserver2(场景2b)来保护访问(hive.server2.enable.doAs=true)。
    2. SQL Standards Based Authorization in HiveServer2:相较于Storage Based Authorization 对于 databases、tables、partitions级别的访问限制,提供了更为精细的对于column和row级别的访问控制,它基于HiveServer2实现SQL标准的授权(grant、revoke)。注意:它不适用与2a的情景,因为hive cli可以直接访问hdfs,bypass掉sql授权限制,并且可以通过set 来更换授权方式。
    3. Authorization using Apache Ranger & Sentry:Apache Ranger和Apache Sentry都使用hive提供的插件,这些项目下的类库保证了授权政策的实现,用户可以使用许多更高级的特性(如:用户web接口、查看审计信息等等)。
    4. Old default Hive Authorization (Legacy Mode):在早期版本中使用,同样支持grant、revoke,不过存在许多安全隐患(如:任何人可以给自己grant权利),可以通过自定义实现超级管理员来改善。当初设计目的是为了防止误操作,不能满足系统对于规范授权的要求。

    再展开讲讲Storage Based Authorization和SQL Standards Based Authorization的使用。

    1. Storage Based Authorization:
      hive-site.xml配置如下参数:
    <property>
      <name>hive.security.authorization.enabled</name>
      <value>true</value>
      <description>开启hive客户端授权</description>
    </property>
    <property>
      <name>hive.security.authorization.manager</name>
      <value>org.apache.hadoop.hive.ql.security.authorization.StorageBasedAuthorizationProvider</value>
    <description>告诉使用哪一个metastore-side authorization provider</description>
    </property>
    <property>
      <name>hive.metastore.pre.event.listeners</name>
      <value>org.apache.hadoop.hive.ql.security.authorization.AuthorizationPreEventListener</value>
      <description>开启metastore-side 安全</description>
    </property>
    <property>
      <name>hive.security.metastore.authenticator.manager</name>
      <value>org.apache.hadoop.hive.ql.security.HadoopDefaultMetastoreAuthenticator</value>
    </property>
    <property>
      <name>hive.security.metastore.authorization.auth.reads</name>
      <value>true</value>
      <description>Hive metastore authorization 将对读操作有效</description>
    </property>
    

    重启HiveMetaStore,根据object和文件系统目录的对应关系设置好相应访问权限便可以控制访问了。

    1. SQL Standards Based Authorization:
      先介绍下hive中关于用户、组、角色的概念

    用户 :即操作系统中的用户,或者在hiveserver2中定义的用户。
    组 :即操作系统中的组。(组是相对默认授权方式来说的)
    角色 :是一组权限的集合,参考关系型数据库。

    一个user可以属于多个group,任意user或group可以拥有多个权限和角色,一个role可以为另一个role的成员(但不能形成环)

    hive内置public、admin角色。public,所有用户都拥有的角色;admin为超级管理员,且使用前需要自己为自己grant admin角色。

    角色管理命令

     //创建角色
    CREATE ROLE role_name;
    //删除角色
    DROP ROLE role_name; 
    //显示当前用户下角色
    SHOW CURRENT ROLES; 
    //设置角色,ALL回到默认,NONE无任何角色
    SET ROLE (role_name|ALL|NONE); 
    //显示所有角色,需admin身份
    SHOW ROLES;
    //为用户或角色指定角色. [WITH ADMIN OPTION] 表示可将grant得到的权限传递
    GRANT role_name [, role_name] ... 
    TO principal_specification [, principal_specification] ... 
    [ WITH ADMIN OPTION ];  
    
    principal_specification
      : USER user
      | ROLE role
    //撤回角色
    REVOKE [ADMIN OPTION FOR] role_name [, role_name] ...
    FROM principal_specification [, principal_specification] ... ; 
    
    principal_specification
      : USER user
      | ROLE role
    //显示pricipal_name名字的USER或ROLE,所赋予的角色
    SHOW ROLE GRANT (USER|ROLE) principal_name;
    //显示role_name名字角色下的user或role
    SHOW PRINCIPALS role_name; 
    

    管理对象特权

    //赋权
    GRANT
        priv_type [, priv_type ] ...
        ON table_or_view_name
        TO principal_specification [, principal_specification] ...
        [WITH GRANT OPTION]; 
    
    //撤销
    REVOKE [GRANT OPTION FOR]
        priv_type [, priv_type ] ...
        ON table_or_view_name
        FROM principal_specification [, principal_specification] ... ;
     
    principal_specification
      : USER user
      | ROLE role
      
    priv_type
      : INSERT | SELECT | UPDATE | DELETE | ALL
    
    //显示权限
    SHOW GRANT [principal_specification] ON (ALL | [TABLE] table_or_view_name);
      
    principal_specification
      : USER user
      | ROLE role
    

    最后来看看该怎么配置。
    hive-site.xml

    <property>
      <name>hive.security.authorization.enabled</name>
      <value>true</value>
      <description>开启授权</description>
    </property>
    <property>
      <name>hive.server2.enable.doAs</name>
      <value> false </value>
      <description>使用hiveServer2本地身份</description>
    </property>
    <property>
      <name>hive.users.in.admin.role</name>
      <value>admin,hive</value>
      <description>admin身份名单</description>
    </property>
    <property>
      <name>hive.security.metastore.authorization.manager</name>
      <value>org.apache.hadoop.hive.ql.security.authorization.StorageBasedAuthorizationProvider,org.apache.hadoop.hive.ql.security.authorization.MetaStoreAuthzAPIAuthorizerEmbedOnly</value>
      <description>设置metastore只接受本地化访问和需要storage based权限</description>
    </property>
    <property>
      <name>hive.security.authorization.manager</name>
      <value>org.apache.hadoop.hive.ql.security.authorization.plugin.sqlstd.SQLStdConfOnlyAuthorizerFactory</value>
      <description>使用hive-cli创建表和视图的人拥有默认权限</description>
    </property>
    

    hiveserver2-site.xml

    hive.security.authorization.manager=org.apache.hadoop.hive.ql.security.authorization.plugin.sqlstd.SQLStdHiveAuthorizerFactory
    hive.security.authorization.enabled=true
    hive.security.authenticator.manager=org.apache.hadoop.hive.ql.security.SessionStateUserAuthenticator
    hive.metastore.uris=' '
    

    总结一下,storage based 或 sql standard 都是为了满足不同的应用需求,且两者可同时配置。至于很多跟高级的引用可以通过自定义不同的组件来实现,具体可看下面的链接。

    注意:1.user name 对大小写敏感而role name 对大小写不敏感,因为user name可能由外部系统提供,不受hive控制,所以大小写敏感;

    详情参见:
    官方文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Authorization#space-menu-link-content
    HADOOP docker(七):hive权限管理:https://www.cnblogs.com/skyrim/p/7455270.html

    TO BE CONTINUED ......

    相关文章

      网友评论

          本文标题:冰解的破-hive

          本文链接:https://www.haomeiwen.com/subject/qgzeuftx.html