绪
hive
构建在hadoop
上的数据仓库平台,为数据仓库管理提供了许多功能
定义了一种类SQL
语言HiveQL
,除了不支持更新、索引和事务,几乎SQL
的其它特征都能支持
hive适用环境
hive
不能提供排序和查询cache
功能,也不提供在线事务处理,不提供实时查询和记录级的更新
hive
能很好地处理不变的大规模数据集上批量任务
hive
具有很好的可扩展性(基于Hadoop
平台)和延展性(结合MapReduce
和用户自定义的函数库)
hive
拥有良好的容错性和低约束的数据输入格式
hive组成
- 用户接口:
Hive shell
,thrift
客户端,web
等 -
Thrift
服务器 - 元数据库:
Derby
,Mysql
- 解析器:包括解释器、编译器、优化器和执行器,查询计划由
MapReduce
调用执行 -
Hadoop
:数据仓库和查询计划存储在HDFS
上,计算过程由MapReduce
执行

网友评论