冰解的破-hive

作者: 大佛爱读书 | 来源:发表于2018-07-04 16:41 被阅读0次

hive

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上，控制分隔符，也允许用户指定数据格式。

学习整理：

hive开启分区的配置方法？

个人认为这里所指定的开启分区应该是指开启动态分区，so具体配置如下：

hive.exec.dynamic.partition=true //是否开启分区功能，默认为false；
hive.exec.dynamic.partition.mode=nonstrict //默认为strict，表示至少要有一分区为静态；nonstrict表示可以全为动态分区；
hive.exec.max.dynamic.partitions.pernode=100 //每个执行的MR节点上，最大可以创建多少动态分区，默认100；
hive.exec.max.dynamic.partitions=1000 //所有执行的MR节点上，最大一共可以创建多少动态分区，默认1000；
hive.exec.max.created.files=10000 //整个MR Job中一共可以创建多少HDFS文件，默认100000；
hive.error.on.empty.partition=true //当有空分区生成时，是否报异常，默认false。

hive授权访问某表命令？

GRANT
    priv_type [, priv_type ] ...
    ON table_or_view_name
    TO principal_specification [, principal_specification] ...
    [WITH GRANT OPTION];

principal_specification
  : USER user
  | ROLE role
  
priv_type
  : INSERT | SELECT | UPDATE | DELETE | ALL

具体可见：下面的hive权限管理。

hive支持几种文件存储格式？

hive支持行存储格式包括：textfile（默认，行存储），squencefile（行存储），rcfile（行列存储），parquet（列存储）。
textfile：默认存储格式。
squencefile：hadoop api提供的一种二进制文件支持，可分割，可压缩，支持 none，record，block三种压缩选项，其中block压缩率最高。
rcfile：行列存储相结合的一种方式，按行分组后再按列存取，按行查找快，按列可压缩并减少io开销。
orcfile：rcfile的改良版。
parquet：一种优化过的列存储，压缩性能比较好，同时表扫描和反序列化都比较快。
这儿补充一点有关压缩存储的一些知识:
首先hive的压缩要分为中间结果的压缩和最终结果的压缩，中间结果压缩是指MapReduce任务中，map阶段结束后的中间结果可以进行压缩以节省带宽，但因为需要在下一步reduce阶段使用，所以对解压速度有一定要求，常见的中间结果压缩技术主要使用LZO和Snappy。而对于最终结果的压缩，我们主要考虑存储空间的需要，技术使用GZIP和BZIP2。
还有一点就是HDFS存储文件的时候会按64M进行分片，每一个分片文件会对应一个mapper来处理以实现并行，但压缩算法并非都支持数据分割，所以我们应该尽量选用可分割的压缩算法（BZip2、LZO、Snappy支持分割，Gzip不支持分割）。

静态分区（sp）和动态分区（dp）？

其实hive所谓分区就是对应着文件目录中的文件夹，静态分区和动态分区的区别主要是是否需要我们手动指定，静态分区一般在编译的时候就确定了，而动态分区则需要hql在执行的过程中根据select出来的值来确定。
总的说静态分区用于比较固定的内容，如果数据存储需要产生很多子文件夹的话建议用开启动态分区。
注意：

动态分区和静态分区可混合使用，但静态分区需要在前。
插入分区表语句中，分区字段对应select语句中最后的几个字段。

hive权限管理

在讨论hive权限之前，先说说hive的使用场景。

hive作为表存储层，提供表抽象和metastore的存储，用户直接访问hdfs和metastore，我们熟悉的有Apache Pig，MapReduce，Cloudera Impala, Facebook Presto, Spark SQL （这些都使用HCatalog api）。

hive作为sql查询引擎，这也是hive最常用的，分为两个子方向：
a. hive command line（如：Hive CLI ），这些用户拥有对于hdfs和hive metastore的直接访问权。
b.ODBC/JDBC 和其他的 HiveServer2 API（如：Beeline CLI），它们没有直接访问hdfs和metastore的能力，只能通过HiveServer2来间接访问。

为此，hive提供了不同的授权模型来满足相应的需求。

Storage Based Authorization in the Metastore Server：适用于1和2a，数据的访问并不取决于hive的设置，而是交由HDFS的权限管理（即目录、文件的rw来控制用户读写）。若想要访问诸如databases、tables、partitions这类metadata object，你需要有文件系统中对应目录的访问权限。当然你也可以通过以终端用户身份运行hiveserver2（场景2b）来保护访问（hive.server2.enable.doAs=true）。

SQL Standards Based Authorization in HiveServer2：相较于Storage Based Authorization 对于 databases、tables、partitions级别的访问限制，提供了更为精细的对于column和row级别的访问控制，它基于HiveServer2实现SQL标准的授权（grant、revoke）。注意：它不适用与2a的情景，因为hive cli可以直接访问hdfs，bypass掉sql授权限制，并且可以通过set 来更换授权方式。

Authorization using Apache Ranger & Sentry：Apache Ranger和Apache Sentry都使用hive提供的插件，这些项目下的类库保证了授权政策的实现，用户可以使用许多更高级的特性（如：用户web接口、查看审计信息等等）。

Old default Hive Authorization (Legacy Mode)：在早期版本中使用，同样支持grant、revoke，不过存在许多安全隐患（如：任何人可以给自己grant权利），可以通过自定义实现超级管理员来改善。当初设计目的是为了防止误操作，不能满足系统对于规范授权的要求。

再展开讲讲Storage Based Authorization和SQL Standards Based Authorization的使用。

Storage Based Authorization：
hive-site.xml配置如下参数：

<property>
  <name>hive.security.authorization.enabled</name>
  <value>true</value>
  <description>开启hive客户端授权</description>
</property>
<property>
  <name>hive.security.authorization.manager</name>
  <value>org.apache.hadoop.hive.ql.security.authorization.StorageBasedAuthorizationProvider</value>
<description>告诉使用哪一个metastore-side authorization provider</description>
</property>
<property>
  <name>hive.metastore.pre.event.listeners</name>
  <value>org.apache.hadoop.hive.ql.security.authorization.AuthorizationPreEventListener</value>
  <description>开启metastore-side 安全</description>
</property>
<property>
  <name>hive.security.metastore.authenticator.manager</name>
  <value>org.apache.hadoop.hive.ql.security.HadoopDefaultMetastoreAuthenticator</value>
</property>
<property>
  <name>hive.security.metastore.authorization.auth.reads</name>
  <value>true</value>
  <description>Hive metastore authorization 将对读操作有效</description>
</property>

重启HiveMetaStore，根据object和文件系统目录的对应关系设置好相应访问权限便可以控制访问了。

SQL Standards Based Authorization:
先介绍下hive中关于用户、组、角色的概念

用户：即操作系统中的用户，或者在hiveserver2中定义的用户。
组：即操作系统中的组。(组是相对默认授权方式来说的)
角色：是一组权限的集合，参考关系型数据库。

一个user可以属于多个group，任意user或group可以拥有多个权限和角色，一个role可以为另一个role的成员（但不能形成环）

hive内置public、admin角色。public，所有用户都拥有的角色；admin为超级管理员，且使用前需要自己为自己grant admin角色。

角色管理命令

 //创建角色
CREATE ROLE role_name;
//删除角色
DROP ROLE role_name; 
//显示当前用户下角色
SHOW CURRENT ROLES; 
//设置角色，ALL回到默认，NONE无任何角色
SET ROLE (role_name|ALL|NONE); 
//显示所有角色，需admin身份
SHOW ROLES;
//为用户或角色指定角色. [WITH ADMIN OPTION] 表示可将grant得到的权限传递
GRANT role_name [, role_name] ... 
TO principal_specification [, principal_specification] ... 
[ WITH ADMIN OPTION ];  

principal_specification
  : USER user
  | ROLE role
//撤回角色
REVOKE [ADMIN OPTION FOR] role_name [, role_name] ...
FROM principal_specification [, principal_specification] ... ; 

principal_specification
  : USER user
  | ROLE role
//显示pricipal_name名字的USER或ROLE，所赋予的角色
SHOW ROLE GRANT (USER|ROLE) principal_name;
//显示role_name名字角色下的user或role
SHOW PRINCIPALS role_name;

管理对象特权

//赋权
GRANT
    priv_type [, priv_type ] ...
    ON table_or_view_name
    TO principal_specification [, principal_specification] ...
    [WITH GRANT OPTION]; 

//撤销
REVOKE [GRANT OPTION FOR]
    priv_type [, priv_type ] ...
    ON table_or_view_name
    FROM principal_specification [, principal_specification] ... ;
 
principal_specification
  : USER user
  | ROLE role
  
priv_type
  : INSERT | SELECT | UPDATE | DELETE | ALL

//显示权限
SHOW GRANT [principal_specification] ON (ALL | [TABLE] table_or_view_name);
  
principal_specification
  : USER user
  | ROLE role

最后来看看该怎么配置。
hive-site.xml

<property>
  <name>hive.security.authorization.enabled</name>
  <value>true</value>
  <description>开启授权</description>
</property>
<property>
  <name>hive.server2.enable.doAs</name>
  <value> false </value>
  <description>使用hiveServer2本地身份</description>
</property>
<property>
  <name>hive.users.in.admin.role</name>
  <value>admin,hive</value>
  <description>admin身份名单</description>
</property>
<property>
  <name>hive.security.metastore.authorization.manager</name>
  <value>org.apache.hadoop.hive.ql.security.authorization.StorageBasedAuthorizationProvider，org.apache.hadoop.hive.ql.security.authorization.MetaStoreAuthzAPIAuthorizerEmbedOnly</value>
  <description>设置metastore只接受本地化访问和需要storage based权限</description>
</property>
<property>
  <name>hive.security.authorization.manager</name>
  <value>org.apache.hadoop.hive.ql.security.authorization.plugin.sqlstd.SQLStdConfOnlyAuthorizerFactory</value>
  <description>使用hive-cli创建表和视图的人拥有默认权限</description>
</property>

hiveserver2-site.xml

hive.security.authorization.manager=org.apache.hadoop.hive.ql.security.authorization.plugin.sqlstd.SQLStdHiveAuthorizerFactory
hive.security.authorization.enabled=true
hive.security.authenticator.manager=org.apache.hadoop.hive.ql.security.SessionStateUserAuthenticator
hive.metastore.uris=' '

总结一下，storage based 或 sql standard 都是为了满足不同的应用需求，且两者可同时配置。至于很多跟高级的引用可以通过自定义不同的组件来实现，具体可看下面的链接。

注意：1.user name 对大小写敏感而role name 对大小写不敏感，因为user name可能由外部系统提供，不受hive控制，所以大小写敏感；

详情参见：
官方文档：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Authorization#space-menu-link-content
HADOOP docker(七):hive权限管理：https://www.cnblogs.com/skyrim/p/7455270.html

TO BE CONTINUED ......

冰解的破-hive

学习整理：

hive开启分区的配置方法？

hive授权访问某表命令？

hive支持几种文件存储格式？

静态分区（sp）和动态分区（dp）？

hive权限管理

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读