Apache Kylin依赖于Hadoop、HBase和Hive。如果要安装Kylin,那么系统中必须正确安装了这三个组件,这样Kylin才可以通过它们的配置文件和命令行工具等来执行计算。本文以Kylin 2.0.0为例,简单介绍一下Kylin单服务器和集群部署。请注意,官网给出的兼容Kylin 2.0.0的Hadoop环境为:
- Hadoop: 2.7+
- Hive: 0.13 - 1.2.1
- HBase: 0.98 - 0.99, 1.1+
- JDK: 1.7+
单节点部署
Kylin的安装部署非常简单,要安装Kylin,需要执行以下步骤:
- 系统中可以正常运行Hadoop(包括HDFS和YARN,注意还:有jobhistoryserver,启动命令为
sbin/mr-jobhistory-daemon.sh start historyserver
),并且正确设置了$HADOOP_HOME变量。 - 系统中可以正常运行Hive和hive命令行工具,并且正确设置了$HIVE_HOME变量。
- 系统中可以正常运行HBase和hbase shell,并且正确设置了$HBASE_HOME变量。
- 下载最新版的Kylin,并解压。
- 可以运行 bin/check-evn.sh 脚本来确保以上组件可以正常运行并且HOME目录设置正确。
- 运行 bin/kylin.sh start 命令来启动Kylin服务,服务启动后,从 log/kylin.log 文件中可以看到Kylin的运行日志。
- 如果需要停止Kylin,运行 bin/kylin.sh stop
当Kylin启动后,可以在 http://hostname:7070/kylin 目录下查看Kylin的Web页面(hostname即为Kylin服务所在的主机名)。登录页面如下:
Kylin登录界面输入用户名密码即可登录,初始用户名为ADMIN,密码为KYLIN。注意,这里的Hadoop等集群不要使用Standalone模式,要不然可能会出现问题。
集群部署
Apache Kylin同样可以使用集群部署,但使用集群部署并不能增加计算速度(因为计算过程使用MapReduce引擎,与Kylin自身无关),而是主要为查询提供负载均衡。
Kylin的每个服务都有三种身份可以选择:
- Job:只作为作业执行引擎,执行Kylin的构建计划。
- Query:只作为查询服务。
- All:同时提供作业执行引擎和查询服务。
需要注意的是,不论我们的Kylin集群中有多少个节点,都只有一个节点可以作为作业执行引擎,不论这个执行引擎是在“job”节点还是“all”节点。也就是说,如果集群中存在一个“job”节点,就不能存在“all”节点,反之亦然。单节点部署时,单个节点就是一个“all”节点。Kylin集群部署的典型场景如下:
图片来源于官网如果使用集群方式部署Kylin,我们需要修改一些配置项。这些配置项在 ${KYLIN_HOME}/conf/kylin.properties 文件中,请确保每个节点都正确配置了这些配置项:
- kylin.rest.servers
提供web服务的列表,用逗号分隔,比如:host1:7070,host2:7070,host3:7070。 - kylin.server.mode
每个节点分别配置自己的身份,注意只有一个节点可以配置成"all”(或“job”),其余节点都必须为“query”。
如果遇到问题
如果在安装过程或后续使用中遇到了问题,请详细阅读Kylin官方文档。也可以去Kylin的社区寻求帮助:
网友评论