Apache Kylin 初识

作者: 博易智讯 | 来源:发表于2020-05-22 15:06 被阅读0次

Apache Kylin 初识
Apache Kylin 入门 3 - 安装与配置
Apache Kylin 入门 2 - 原理与架构
Apache Kylin 入门 1 - 基本概念
Apache Kylin 入门 4 - 构建 Model
Apache Kylin 入门 5 - 构建 Cube
基于 ELKB 构建 Kylin 查询时间监控页面
Apache Kylin 入门 6 - 优化 Cube
Apache Kylin v2.5.0 正式发布
Apache Kylin 2.5 Updates

hi 大家好，

今天给大家介绍一个全新的伙伴——Apache Kylin。

大家可不要小瞧它，要知道Apache Kylin可是有“数据仓库”的称号，实现超大数据集上的亚秒级查询，提供与多种数据可视化工具的整合能力，如 Tableau，PowerBI 等，是一个“称职”的小助手。

接下来就让我们详细的了解一下吧。

Kylin到底是什么？

Apche Kylin 是 Hadoop 大数据平台上的一个开源 OLAP 引擎。它采用多维立方体（Cube）预计算技术，可以将某些场景下的大数据 SQL 查询速度提升到亚秒级别。相对于之前的分钟乃至小时级别的查询速度。

Apache Kylin 也是中国人主导的，第一个 Apche 顶级开源项目，在开源社区有较大影响力。

Kylin 对于解决的问题有以下假设：

大数据查询要的一般是统计结果，是多条记录经过聚合函数计算后的统计值。（原始的记录则不是必需的，或者访问频率和概率都极低。）

聚合是按维度进行的，有意义的维度聚合组合也是相对有限的，一般不会随着数据的膨胀而膨胀。

基于以上两点，可以得到一个新的思路——预计算，这样就可以尽量多地预先计算聚合结果，在查询时应该尽量利用预计算的结果得出查询结果，从而避免直接扫描可能无限增大的原始记录。

cube到底是什么

Cube 即多维立方体，也叫数据立方体。如下图所示，是由三个维度（维度数可以超过3个，下图仅为了方便画图表达）构成的一个OLAP立方体，立方体中包含了满足条件的cell(子立方块)值，这些cell里面包含了要分析的数据，称之为度量值。

相关概念

立方体：由维度构建出来的多维空间，包含了所有要分析的基础数据，所有的聚合数据操作都在立方体上进行。

维度：观察数据的角度。一般是一组离散的值，比如：

时间维度上的每一个独立的日期

商品维度上的每一件独立的商品

度量：即聚合计算的结果，一般是连续的值，比如：

销售额、销售均价、销售商品的总件数。

事实表：是指存储有事实记录（明细数据）的表，如系统日志、销售记录等；事实表的记录在不断地动态增长，数据量大。

维度表（维表）：保存了维度值，可以跟事实表做关联。

常见的维度表如：日期表、地点表、分类表。

Cuboid：对于每一种维度的组合，将度量做聚合运算，然后将运算的结果保存为一个物化视图，称为 Cuboid。

今天有关Kylin的相关知识就先科普到这里吧，感兴趣的话，记得关注我们的公众号啊~

以后在会继续更新kylin的cube的搭建哦。

往期文章

Tableau Data Kids活动分享

【操作技巧】使用 fiexd 寻找定点指标前后数据

【操作技巧】如何制作漏斗图

【操作技巧】Tableau on AWS的云端之旅

【操作技巧】Tableau分析之如何让筛选器中的某些值不显示

微信号 : 数据艺术家

新浪微博：数据可视化Tableau

Bilibili官方账号：bizinsight

网友评论

本文标题：Apache Kylin 初识

本文链接：https://www.haomeiwen.com/subject/hybqahtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Apache Kylin 初识

相关文章