操作系统
linux only
Hive Metastore
Impala能够交互操作hive中存储的数据,使用相同的基础架构,来追踪表,列等schema对象的元数据,需求的前提如下,
- 安装和配置MySQL 或者 PostgreSQL来作为metastore database。配置Hive metastore service,而不是直接访问metastore database更好,原因在于Hive metastore service能够交互不同级别的元数据接口访问,可以避免直接访问metastore database带来的一些已知问题。
操作过程如下,
- 安装mysql或者postgreSQL
- 将相应的驱动包jar包放置目录 /usr/share/java/中
- 使用正确的语句,创建metastore database
- 使用正确的语句,授权metastore database 给hive用户
- 修改hive-site.xml文件,使其内容对应正确的metastore database,包括,url,name,password,然后,复制hive-site.xml到impala配置的目录
- 可选的Hive
Java依赖
java jdk和java_home环境变量
网络配置要求
为了性能,Impala会优先使用本地数据完成任务,因此,impala通过解析ip的hostname,来匹配impalad对应的hostname和datanode对应ip地址。为了能够使用本地数据,同一个机器上DataNode和Impalad需要使用一个IP Interface。对于single-homed的机器,这个是自动的,但是对于multi-homed机器而言,需保证Impalad的hostname解析到正确的ip interface才行。Impala在启动的时候,会打印正确的hostname。
硬件需求
Impalad需要分配连续的内存,因此,如果内存过低,会成为瓶颈,
User Account要求
Impala使用impala用户和impala组,不要删除或者修改权限;Impala需要将删除的数据,移动HDFS的trashcan中,因此,你需要创建/usr/impala目录,能够被Impala用户读写,
Impala不能使用root用户执行,
网友评论