37HUE和impala

作者: 文茶君 | 来源:发表于2020-02-17 15:11 被阅读0次

37HUE和impala
Apache Impala概念和架构
Impala 适配 Hadoop生态圈
Impala从入门到放弃-V1.0
Impala - Impala和Hive的关系
Impala
浅谈交互式查询⼯工具Impala(一)
03. impala-kudu 安装
Apache Impala 简介
Impala快速上手：Impala简介，Impala shell

在mysql新建一个数据库，供hive使用，然后在cm里新建hive
create database hive DEFAULT CHARACTER SET utf8;
grant all on hive.* TO 'hive'@'%' IDENTIFIED BY 'hive';

1.png

在此前要添加ooize
Oozie是一种Java Web应用程序，它运行在Java servlet容器——即Tomcat——中，并使用数据库来存储以下内容：

工作流定义
当前运行的工作流实例，包括实例的状态和变量

Oozie工作流是放置在控制依赖DAG（有向无环图 Direct Acyclic Graph）中的一组动作（例如，Hadoop的Map/Reduce作业、Pig作业等），其中指定了动作执行的顺序。我们会使用hPDL（一种XML流程定义语言）来描述这个图。

在安装hue前要安装oozie
安装后进入hue

Hue是一个开源的Apache Hadoop UI系统。
通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据。
例如操作HDFS上的数据、运行Hive脚本、管理Oozie任务等等。
是基于Python Web框架Django实现的。
支持任何版本Hadoop

2.png

然后可视化界面，很容易就操作了

基于文件浏览器（File Browser）访问HDFS
基于web编辑器来开发和运行Hive查询
支持基于Solr进行搜索的应用，并提供可视化的数据视图，报表生成
通过web调试和开发impala交互式查询
spark调试和开发
Pig开发和调试
oozie任务的开发，监控，和工作流协调调度
Hbase数据查询和修改，数据展示
Hive的元数据（metastore）查询
MapReduce任务进度查看，日志追踪
创建和提交MapReduce，Streaming，Java job任务
Sqoop2的开发和调试
Zookeeper的浏览和编辑
数据库（MySQL，PostGres，SQlite，Oracle）的查询和展示

Impala

Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impala的最大特点也是最大卖点就是它的快速。

基于Hive（hive metastore）使用内存计算，兼顾数据仓库，具有实时，批处理，多并发等优点
提供对HDFS,Hbase数据的高性能，低延迟的交互式SQL查询数据
是CDH平台首选的PB级大数据实时查询分析引擎

Impala优点：

Impala不需要把中间结果写入磁盘，省掉了大量的I/O开销。
省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢(默认每个心跳间隔是3秒钟)，Impala直接通过相应的服务进程来进行作业调度，速度快了很多。
Impala完全抛弃了MapReduce这个不太适合做SQL查询的范式，而是像Dremel一样借鉴了MPP并行数据库的思想另起炉灶，因此可做更多的查询优化，从而-
省掉不必要的shuffle、sort等开销。
通过使用LLVM来统一编译运行时代码，避免了为支持通用编译而带来的不必要开销。
用C++实现，做了很多有针对性的硬件优化，例如使用SSE指令。
使用了支持Data locality的I/O调度机制，尽可能地将数据和计算分配在同一台机器上进行，减少了网络开销。

劣势：
1.对内存依赖大
2.完全依赖于hive
3.实践过程中分区超过1w 性能严重下降
4.稳定性不如hive
impala架构