Apache Kylin 初识

作者: 博易智讯 | 来源:发表于2020-05-22 15:06 被阅读0次

hi 大家好,

今天给大家介绍一个全新的伙伴——Apache Kylin。

大家可不要小瞧它,要知道Apache Kylin可是有“数据仓库”的称号,实现超大数据集上的亚秒级查询,提供与多种数据可视化工具的整合能力,如 Tableau,PowerBI 等,是一个“称职”的小助手。

接下来就让我们详细的了解一下吧。

Kylin到底是什么?

Apche Kylin 是 Hadoop 大数据平台上的一个开源 OLAP 引擎。它采用多维立方体(Cube)预计算技术,可以将某些场景下的大数据 SQL 查询速度提升到亚秒级别。相对于之前的分钟乃至小时级别的查询速度。

Apache Kylin 也是中国人主导的,第一个 Apche 顶级开源项目,在开源社区有较大影响力。

Kylin 对于解决的问题有以下假设:

大数据查询要的一般是统计结果,是多条记录经过聚合函数计算后的统计值。(原始的记录则不是必需的,或者访问频率和概率都极低。)

聚合是按维度进行的,有意义的维度聚合组合也是相对有限的,一般不会随着数据的膨胀而膨胀。

基于以上两点,可以得到一个新的思路——预计算,这样就可以尽量多地预先计算聚合结果,在查询时应该尽量利用预计算的结果得出查询结果,从而避免直接扫描可能无限增大的原始记录。

cube到底是什么

Cube 即多维立方体,也叫数据立方体。如下图所示,是由三个维度(维度数可以超过3个,下图仅为了方便画图表达)构成的一个OLAP立方体,立方体中包含了满足条件的cell(子立方块)值,这些cell里面包含了要分析的数据,称之为度量值。

相关概念

立方体:由维度构建出来的多维空间,包含了所有要分析的基础数据,所有的聚合数据操作都在立方体上进行。

维度:观察数据的角度。一般是一组离散的值,比如:

 时间维度上的每一个独立的日期

 商品维度上的每一件独立的商品

 度量:即聚合计算的结果,一般是连续的值,比如:

 销售额、销售均价、销售商品的总件数。

事实表:是指存储有事实记录(明细数据)的表,如系统日志、销售记录等;事实表的记录在不断地动态增长,数据量大。

维度表(维表):保存了维度值,可以跟事实表做关联。

常见的维度表如:日期表、地点表、分类表。

Cuboid:对于每一种维度的组合,将度量做聚合运算,然后将运算的结果保存为一个物化视图,称为 Cuboid。

今天有关Kylin的相关知识就先科普到这里吧,感兴趣的话,记得关注我们的公众号啊~

以后在会继续更新kylin的cube的搭建哦。

往期文章

Tableau Data Kids活动分享

【操作技巧】使用 fiexd 寻找定点指标前后数据

【操作技巧】如何制作漏斗图

【操作技巧】Tableau on AWS的云端之旅

【操作技巧】Tableau分析之如何让筛选器中的某些值不显示

微信号 : 数据艺术家

新浪微博:数据可视化Tableau

Bilibili官方账号:bizinsight

相关文章

网友评论

    本文标题:Apache Kylin 初识

    本文链接:https://www.haomeiwen.com/subject/hybqahtx.html