美文网首页
37HUE和impala

37HUE和impala

作者: 文茶君 | 来源:发表于2020-02-17 15:11 被阅读0次

在mysql新建一个数据库,供hive使用,然后在cm里新建hive
create database hive DEFAULT CHARACTER SET utf8;
grant all on hive.* TO 'hive'@'%' IDENTIFIED BY 'hive';


1.png

在此前要添加ooize
Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储以下内容:

  • 工作流定义
  • 当前运行的工作流实例,包括实例的状态和变量

Oozie工作流是放置在控制依赖DAG(有向无环图 Direct Acyclic Graph)中的一组动作(例如,Hadoop的Map/Reduce作业、Pig作业等),其中指定了动作执行的顺序。我们会使用hPDL(一种XML流程定义语言)来描述这个图。

在安装hue前要安装oozie
安装后进入hue

  • Hue是一个开源的Apache Hadoop UI系统。
  • 通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据。
    例如操作HDFS上的数据、运行Hive脚本、管理Oozie任务等等。
  • 是基于Python Web框架Django实现的。
  • 支持任何版本Hadoop
2.png

然后可视化界面,很容易就操作了

  • 基于文件浏览器(File Browser)访问HDFS
  • 基于web编辑器来开发和运行Hive查询
  • 支持基于Solr进行搜索的应用,并提供可视化的数据视图,报表生成
  • 通过web调试和开发impala交互式查询
  • spark调试和开发
  • Pig开发和调试
  • oozie任务的开发,监控,和工作流协调调度
  • Hbase数据查询和修改,数据展示
  • Hive的元数据(metastore)查询
  • MapReduce任务进度查看,日志追踪
  • 创建和提交MapReduce,Streaming,Java job任务
  • Sqoop2的开发和调试
  • Zookeeper的浏览和编辑
  • 数据库(MySQL,PostGres,SQlite,Oracle)的查询和展示

Impala

Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。

  • 基于Hive(hive metastore)使用内存计算,兼顾数据仓库,具有实时,批处理,多并发等优点
  • 提供对HDFS,Hbase数据的高性能,低延迟的交互式SQL查询数据
  • 是CDH平台首选的PB级大数据实时查询分析引擎

Impala优点:

  • Impala不需要把中间结果写入磁盘,省掉了大量的I/O开销。
  • 省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢(默认每个心跳间隔是3秒钟),Impala直接通过相应的服务进程来进行作业调度,速度快了很多。
  • Impala完全抛弃了MapReduce这个不太适合做SQL查询的范式,而是像Dremel一样借鉴了MPP并行数据库的思想另起炉灶,因此可做更多的查询优化,从而-
  • 省掉不必要的shuffle、sort等开销。
  • 通过使用LLVM来统一编译运行时代码,避免了为支持通用编译而带来的不必要开销。
  • 用C++实现,做了很多有针对性的硬件优化,例如使用SSE指令。
  • 使用了支持Data locality的I/O调度机制,尽可能地将数据和计算分配在同一台机器上进行,减少了网络开销。

劣势:
1.对内存依赖大
2.完全依赖于hive
3.实践过程中 分区超过1w 性能严重下降
4.稳定性不如hive
impala架构


3.png

impalad负责计算,有多少datanode就有多少impalad


4.png 5.png

impala可以和hbase整合
impala jdbc
impala性能优化

相关文章

网友评论

      本文标题:37HUE和impala

      本文链接:https://www.haomeiwen.com/subject/xocpfhtx.html