Clickhouse原理与应用实践（三）MergeTree原理解

Clickhouse原理与应用实践（三）MergeTree原理解

作者: kaiker | 来源:发表于2022-08-06 10:51 被阅读0次

Clickhouse原理与应用实践（三）MergeTree原理解
ClickHouse原理解析与应用实践
《ClickHouse原理解析与应用实践》读书总结
ClickHouse MergeTree
ClickHouse 之MergeTree引擎
Javascript
clickhouse之mergeTree
Clickhouse原理与应用实践（一）基础介绍
Clickhouse原理与应用实践（五）副本与分片
《深度学习：原理与应用实践.pdf》PDF高清完整版-免费下载

1、MergeTree创建方式与存储结构

MergeTree在写入一批数据时，数据总会以数据片段的形式写入磁盘，且数据片段不可修改。

1.1 MergeTree创建

CREATE TABLE table_name (

) ENGINE = MergeTree()
[PARTITION BY xx]
[ORDER BY xx]
[PRIMARY KEY xx]
[SAMPLE BY xx]
[SETTINGS name=value]

ORDER BY 必填，在一个数据片段内，数据以何种标准排序。默认情况下，主键与排序键相同。
PRIMARY KEY 生成一级索引。可以直接用order by代为制定。
默认情况下每间隔8192行数据生成一条索引。

1.2 存储结构

MergeTree存储结构

checksums 二进制校验文件，报错余下各文件的size和size哈希。
columns 保存列字段信息
count 保存数据总行数
primary 一级索引，稀疏索引
[Column].bin 数据文件
[Column].mrk 与索引对应，保存了bin中数据偏移量信息。首先通过primary.idx找到对应数据偏移量，然后再通过偏移量直接从.bin中读取数据。
[Column].mrk2 如果使用自适应大小的索引间隔，标记文件以mrk2命名，工作原理和.mrk一样。
skp_idx_[Column].idx skp_idx_[Column].mrk 如果声明了二级索引，额外会生成相应索引和标记文件。

2、数据分区

2.1 分区目录命名规则

分区命名

MinBlock maxBlock 最小最大数据块编号，计数在单张MergeTree数据表内全局累加。
Level合并层级，相同分区发生合并，则相应分区内计数累加1。

2.2 分区目录合并过程

分区合并

MeregeTree分区目录并不是在数据表被创建之后就存在的，而是在数据写入过程中被创建的。
伴随着每一批数据的写入，MergeTree都会生成一批新的分区目录。

3、一级索引

3.1 索引粒度

默认是8192

索引粒度

3.2 索引数据生成

索引数据生成

3.3 索引查询

一个具体的数据段是一个MarkRange，划分依据是间隔（默认8192）
首先生成查询条件，然后递归交集判断。

索引查询过程

4、二级索引

granularity定义了一行跳数索引能跳过多少个index_granularity区间的数据。
注意图中granularity和index_granularity间的关系。

二级索引

5、数据存储

5.1 各列独立存储

数据是经过压缩的。
事先按照order by声明排序。
数据是以压缩数据块的形式被组织并写入.bin文件中的。

5.2 压缩数据块

.bin压缩文件是由多个压缩数据块组成的

压缩数据块示意图

切割压缩数据块

6、数据标记

根据偏移读取对应的压缩数据块。12000 - 12016是因为有8位头文件。
以index_granularity粒度加载特定的一小段

标记的对应关系

标记的样式

数据标记使用方法

7、协同总结

7.1 写入

写入过程

7.2 查询

查询过程

7.3 数据标记与压缩块对应关系

多个标记对应一个压缩块、一个标记对应一个压缩块比较好理解。
一个标记对应多个压缩块，说明这index_granualarity间隔的数据很大。

一对多

相关文章

Clickhouse原理与应用实践（三）MergeTree原理解
1、MergeTree创建方式与存储结构 MergeTree在写入一批数据时，数据总会以数据片段的形式写入磁盘，且...
ClickHouse原理解析与应用实践
第1章 ClickHouse的前世今生在大量数据分析场景的解决方案中，传统关系型数据库很快就被Hadoop生态所...
《ClickHouse原理解析与应用实践》读书总结
本文是对《ClickHouse原理解析与应用实践》一书的概括性总结，整体章节和结构尊重原文，由于书的出版在2019...
ClickHouse MergeTree
1. 简介 ClickHouse MergeTree表引擎主要用于海量数据分析，支持数据分区、存储有序、主键索引、...
ClickHouse 之MergeTree引擎
MergeTree 表引擎基本介绍 MergeTree是ClickHouse特有的一种数据表存储、处理引擎。 M...
Javascript
JS基础《Javascript原理、方法与实践》《JS原理、方法与实践》- Javascript简介《JS原...
clickhouse之mergeTree
mergeTree 数据存储方式数据库表在clickhouse中是分块存储（如果 partitioning ke...
Clickhouse原理与应用实践（一）基础介绍
1、ClickHouse发展历程及不适用场景 Mysql MyISAM - Metrage LSM、预聚合 - O...
Clickhouse原理与应用实践（五）副本与分片
1、概述下图中N1和N2内容不同，则N1 N2互为分片。如果内容相同，则互为副本。 2、数据副本只有使用了Re...
《深度学习：原理与应用实践.pdf》PDF高清完整版-免费下载
《深度学习：原理与应用实践.pdf》PDF高清完整版-免费下载《深度学习：原理与应用实践.pdf》PDF高清完整...

网友评论

本文标题：Clickhouse原理与应用实践（三）MergeTree原理解

本文链接：https://www.haomeiwen.com/subject/ipxvwrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Clickhouse原理与应用实践（三）MergeTree原理解|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！