hi 大家好,
今天给大家介绍一个全新的伙伴——Apache Kylin。
大家可不要小瞧它,要知道Apache Kylin可是有“数据仓库”的称号,实现超大数据集上的亚秒级查询,提供与多种数据可视化工具的整合能力,如 Tableau,PowerBI 等,是一个“称职”的小助手。
接下来就让我们详细的了解一下吧。
Kylin到底是什么?
Apche Kylin 是 Hadoop 大数据平台上的一个开源 OLAP 引擎。它采用多维立方体(Cube)预计算技术,可以将某些场景下的大数据 SQL 查询速度提升到亚秒级别。相对于之前的分钟乃至小时级别的查询速度。
Apache Kylin 也是中国人主导的,第一个 Apche 顶级开源项目,在开源社区有较大影响力。
Kylin 对于解决的问题有以下假设:
大数据查询要的一般是统计结果,是多条记录经过聚合函数计算后的统计值。(原始的记录则不是必需的,或者访问频率和概率都极低。)
聚合是按维度进行的,有意义的维度聚合组合也是相对有限的,一般不会随着数据的膨胀而膨胀。
基于以上两点,可以得到一个新的思路——预计算,这样就可以尽量多地预先计算聚合结果,在查询时应该尽量利用预计算的结果得出查询结果,从而避免直接扫描可能无限增大的原始记录。
cube到底是什么
Cube 即多维立方体,也叫数据立方体。如下图所示,是由三个维度(维度数可以超过3个,下图仅为了方便画图表达)构成的一个OLAP立方体,立方体中包含了满足条件的cell(子立方块)值,这些cell里面包含了要分析的数据,称之为度量值。
相关概念
立方体:由维度构建出来的多维空间,包含了所有要分析的基础数据,所有的聚合数据操作都在立方体上进行。
维度:观察数据的角度。一般是一组离散的值,比如:
时间维度上的每一个独立的日期
商品维度上的每一件独立的商品
度量:即聚合计算的结果,一般是连续的值,比如:
销售额、销售均价、销售商品的总件数。
事实表:是指存储有事实记录(明细数据)的表,如系统日志、销售记录等;事实表的记录在不断地动态增长,数据量大。
维度表(维表):保存了维度值,可以跟事实表做关联。
常见的维度表如:日期表、地点表、分类表。
Cuboid:对于每一种维度的组合,将度量做聚合运算,然后将运算的结果保存为一个物化视图,称为 Cuboid。
今天有关Kylin的相关知识就先科普到这里吧,感兴趣的话,记得关注我们的公众号啊~
以后在会继续更新kylin的cube的搭建哦。
往期文章
【操作技巧】Tableau分析之如何让筛选器中的某些值不显示
微信号 : 数据艺术家
新浪微博:数据可视化Tableau
Bilibili官方账号:bizinsight
网友评论