kylin cube优化

kylin cube优化

作者: 烂泥_119c | 来源:发表于2020-02-09 11:44 被阅读0次

kylin-Cube中的Rowkey优化
Kylin Cube优化
kylin cube优化
Kylin系列（二）—— Cube 构造算法
kylin cube 构建和优化
kylin维度及cube优化
kylin-kylin平台PushDown引擎调研配置
Apache Kylin 入门 6 - 优化 Cube
Kylin系列（一）—— 入门
kyin-Cube中对Rowkey的编码方式介绍

1. 查看相关统计

1.1 查看cuboid物化状态

命令：./kylin.sh org.apache.kylin.engine.mr.common.CubeStatsReader cube_name
image.png

1.2 检查cube大小

image.png

一般来说，膨胀率应控制在0-1000%，
- 膨胀率过高的原因分析：维度数量高且未进行剪枝
- 存在较高基维的维度，导致包含该维度的cuboid占用空间较大
- 存在占用空间的度量，如count distinct

1.3 时间和空间的平衡

所有能用cuboid的查询请求都可以通过base cuboid来处理，但是这样带来大量的聚合计算，kylin构建这么多cuboid就是为了适应不同的聚合计算。但是过多的cuboid又会导致构建速度慢空间占用多，例如：shrink值接近100%的，及时丢弃这个cuboid而使用父cuboid计算也不会产生更多的开销。

2. 剪枝优化

image.png

2.1 衍生维度

适用范围：使用维度表时，可以将维度表的字段设置为衍生维度。
原理：衍生维度不参加预计算，在底层记录维度表主键与维度表其他维度之间的映射关系，在查询的时候可以进行动态翻译得到非主键id并进行实时聚合
注意项：只在维表维度中可用，另外如果主键到某个维度所需要的聚合工作量非常大，也不建议用衍生维度。如日期主键映射到年份等
优化效率：每个衍生维度可以减少一半的cuboid

2.2 聚合组

适用场景：根据业务场景，可以划分出具有强依赖的组合。
原理

image.png
根据业务的维度组合，划分出具有强依赖的组合，这些组合称之为聚合组，在聚合组内，维度之间的组合会预计算，聚合组之间并不交叉预计算，从而减少Cuboid的数量

2.3 必需维度

适用场景：如果某个维度在所有查询中都会作为group by或者where的条件，可以把他设置为必需维度，通常情况下会设置日期为必需维度。

2.4 层级维度

适用场景：维度之间有层级关系，比如国家(A)->省份(B)->城市(C)

image.png
优化效率：2^n -> n+1

2.5 联合维度

适用场景：同时查询几个维度的场景，即某种维度组合要么一起出现，要么一起不出现，如o_city,d_city; 不常出现的多个维度可以设置为联合维度；基数比较小的多个维度可以设置为联合维度。
优化效率： 2^n ->2

3. 并发粒度优化

3.1 读并发优化

原理：每个segment对应一张hbase中的表，一张表可以对应多个region,这是region的个数就对应的是查询时的并发粒度，region切分越细，并发度越高。
对应参数：kylin.storage.hbase.region-cut-gb

3.2 写并发优化

原理：构建cube时，最终是将文件写入到hbase中，此时一个文件对应一个并发度，文件划分越小，并发度则越高。
对应参数：kylin.storage.hbase.hfile-size-gb

4. row_key优化

4.1 row_key顺序

row_key中字段的顺序对于查询非常重要，因为hbase的查询最终依赖的是对row_key的scan,

4.1.1 row_key的顺序遵循如下原则：

有可能作为查询的过滤条件的维度放在前面
- 多个可能作为过滤条件的维度，基数高的（作为过滤条件时可以过滤更多数据）更适合放前面
- 公式：得分 = 维度出现在过滤条件中的频率 * 作为过滤条件时尅过滤的数据记录数
经常出现在查询中的维度放在不经常出现的维度前面，这样在需要进行后聚合的场景中查询效率会更高
不会出现在查询中的维度，按照其基数的高低，低基数的放在后面：在逐层构建cuboid时，kylin会优先选择rowkey后面的维度所在的cuboid来生成子coboid，那么基数越低的维度包含他的父cuboid的行数就越少，生成子cuboid的代价就越低。（例：101110 和101101 都可以构建出 101100，按kylin的设计，会选择101101来完成构建）

4.2 合适的维度编码

字典不适用于高基维的维度，主要原因是字典是在单节点内存中创建，查询时还需要加载到内存中，大字典会导致构建过慢，并且会占用太多内存。

4.3 按维度分片

原理：默认cuboid的分片策略时哈希计算后随即分配的，按维度分片的意思是，当选择一个维度作为维度分片(如od_city)时，如果cuboid中的两行在该维度上相等，name这两行数据始终在一个分片中。这样在查询时，hbase为每个分片（region）开启一个coprocessor，coprocessor就能够在读取自身的分片数据做一定的预聚合，那么所有按照od_city分组的查询都会变得更加高效，因为每个分片都做了预聚合，分片返回的结果更少，查询引擎需要做的聚合操作也更少。
适用范围：高基围维度，并且数据分布相对均匀的，在大多数cuboid中都会出现的维度

4.4 top_N度量优化

原理：对特定维度（较高基维）的topN做预先计算topN的结果，当查询到来时，只用各个单元格中存储的topN个数据进行聚合得到结果返回。

image.png

image.png

适用范围：分析场景主要集中在某个维度的topN时。

5. cube planner

这是自kylin2.3提供的一个自动优化工具，在用户自定义的基础上进行进一步的自动优化，主要是两个阶段：
- 阶段1. 初次构建时，cube planner根据cube构建过程中的extract fact table distinct columns步骤中的采样数据，计算效益比（查询成本/物化该维度组合后对整个cube减少的的查询成本）
- 阶段2：对于已经运行一段时间的cube，根据历史统计的查询信息，几乎不被查询的cuboid会被删除（需要依赖于system cube）

相关文章

kylin-Cube中的Rowkey优化
基于kylin-3.0 重点通过对Cube的Rowkey的设置来优化Cube的查询性能前言 Cube的每个Cub...
Kylin Cube优化
维度优化层级维度根据kylin的理念，当你在创建cube时选择了N个维度，那么最终的会有2的N次方个维度组合，...
kylin cube优化
1. 查看相关统计 1.1 查看cuboid物化状态命令：./kylin.sh org.apache.kylin...
Kylin系列（二）—— Cube 构造算法
总目录 Kylin系列（一）—— 入门Kylin系列（二）—— Cube 构造算法 [TOC] Kylin cub...
kylin cube 构建和优化
kylin构建类型全量构建在构建模型的时候没有对数据指定分割时间列（partition date colume）...
kylin维度及cube优化
-------写在前面在数据日益增长的今天，如何在这凌乱的数据中梳理出有价值的数据，是我们面对的首要问题。从数据...
kylin-kylin平台PushDown引擎调研配置
基于kylin-3.0; 背景完善kylin平台，对kylin平台配置下压引擎 impala，解决不再cube中...
Apache Kylin 入门 6 - 优化 Cube
Apache Kylin 入门系列目录 Apache Kylin 入门 1 - 基本概念 Apache Kylin...
Kylin系列（一）—— 入门
总目录 Kylin系列（一）—— 入门Kylin系列（二）—— Cube 构造算法 [TOC] 因为平常只会使用k...
kyin-Cube中对Rowkey的编码方式介绍
基于kylin-3.0 Cube中结果在HBase中存储形式在Apache Kylin中是以key-value的...

网友评论

本文标题：kylin cube优化

本文链接：https://www.haomeiwen.com/subject/vbugxhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|kylin cube优化|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！