Hive:基于jdk hadoop 生态圈数据仓库工具,通过类SQL (HQL)将结构性行文件映射为一张数据库表,通过类sql来统计数据,转换为MR ,节省创建MR应用程序,实现快速统计查询。
hive 构建在基于静态批处理的hadoop ,提供数据存储,查询。hive 将ETL 转换为MR,在讲MR 转换到Hadoop提交作业,在hd监控作业返回信息。hive处理几百M数据需要分钟级别延迟,是用来做离线分析。主要用在日志分析。不具备实时性,以及联机事务处理(一个联机事务处理数据库典型的特点是,拥有大量的并发用户,这些用户积极地完成实时修改数据的任务)。
网友评论