hive 是Hadoop上的组件,是一种数据仓库,是在HDFS和mapreduce 两个引擎上的。
数据仓库
数据仓库,我的理解就是数据库的集合,注意是集合,不是集群,数据有关系型数据库和非关系型数据库,而数据仓库可以即可以放置关系型数据也可以放置非关系型数据,是集成的,面向主题的。数据是冗余的。比如hive 这个数据仓库就是放置数据的元数据的。就比如数据库的路径,大小各种参数。数据仓库中的数据是不可更新的,所涉及的操作主要是查询,而查询类似之前的mysql oracle 数据库的查询语句。 可以把hive 理解为sql 语句和mapreduce 的映射器 hive 并不存储数据,只是管理HDFS上的数据。
访问hive
1.client shell 访问
2.jdbc,odbc 的接口访问,thrift hive --service hiveserver
3,web hive --service hwi
hive的三种表
数据库创建:
数据库创建修改,删除数据库:
修改删除数据库内部表:
内部表操作外部表:
外部表 删除外部表时候,只删除元数据分区表:
分区表建立修改表结构:
增加表的列
网友评论