Kylin的工作机制参考

作者: liuzx32 | 来源:发表于2019-01-24 11:59 被阅读11次

Kylin的工作机制参考
Kylin跨集群数据迁移
如何利用API构建Cube更新Kylin数据
Kylin的路由机制
kylin度量值是否可以作为查询条件？
Kylin应用总结参考1
Kylin中rowKey编码参考
004-Kylin环境安装
Kylin工作原理
Kylin的的基本概念参考

Apache kylin 能提供低延迟（sub-second latency）的秘诀就是预计算，即针对一个星型拓扑结构的数据立方体，预计算多个维度组合的度量，然后将结果保存在hbase中，对外暴露JDBC、ODBC、Rest API的查询接口，即可实现实时查询。

数据立方体一般由Hive中的一个事实表,多个查找表组成。预计算的过程在kylin中就是 Cube 的build过程，如下图：

image

当前Apache kylin构建（build）数据立方体，采用逐层算法（By Layer Cubing）。未来的发布中将采用快速立方体算法（Fast Cubing）。下面简单介绍一下逐层算法：

一个完整的数据立方体，由N-dimension立方体，N-1 dimension立方体，N-2维立方体，0 dimension立方体这样的层关系组成，除了N-dimension立方体，基于原数据计算，其他层的立方体可基于其父层的立方体计算。所以该算法的核心是N次顺序的MapReduce计算。

在MapReduce模型中，key由维度的组合的构成，value由度量的组合构成，当一个Map读到一个key-value对时，它会计算所有的子立方体（child cuboid），在每个子立方体中，Map从key中移除一个维度，将新key和value输出到reducer中。直到当所有层计算完毕，才完成数据立方体的计算。过程如下图：

image 在数据立方体计算完毕后，有一个任务（Convert Cuboid Data to HFile），其职责是将reduce输出的运算结果（Cuboid Data）转化成Hbase中的存储载体（HFile），最终将HFile 加载到Hbase表中便于查询。其中表的rowkey由维度组合而成，维度组合对应的度量值构成了column family，为了查询减少存储空间，会对RowKey和column family的值进行编码，默认编码是Snappy。

image

整个数据立方体的构建流程如下：

image

当前Apache kylin构建（build）数据立方体，采用逐层算法（By Layer Cubing）。未来的发布中将采用快速立方体算法（Fast Cubing）。下面简单介绍一下逐层算法：

一个完整的数据立方体，由N-dimension立方体，N-1 dimension立方体，N-2维立方体，0 dimension立方体这样的层关系组成，除了N-dimension立方体，基于原数据计算，其他层的立方体可基于其父层的立方体计算。所以该算法的核心是N次顺序的MapReduce计算。

在MapReduce模型中，key由维度的组合的构成，value由度量的组合构成，当一个Map读到一个key-value对时，它会计算所有的子立方体（child cuboid），在每个子立方体中，Map从key中移除一个维度，将新key和value输出到reducer中。直到当所有层计算完毕，才完成数据立方体的计算。过程如下图：

image

在数据立方体计算完毕后，有一个任务（Convert Cuboid Data to HFile），其职责是将reduce输出的运算结果（Cuboid Data）转化成Hbase中的存储载体（HFile），最终将HFile 加载到Hbase表中便于查询。其中表的rowkey由维度组合而成，维度组合对应的度量值构成了column family，为了查询减少存储空间，会对RowKey和column family的值进行编码，默认编码是Snappy。