最近公司搭建了Clickhouse的集群,作为一款久负盛名的高性能OLAP查询引擎,我们也针对自己的使用场景的进行...[作者空间]
前面的准备工作做好之后,我们来搭建带Kerberos和SASL的完全分布式的Hadoop集群。 1. 集群环境准备...[作者空间]
接前文,在安装完Kerberos之后,Flink仍然需要Hadoop集群使用SASL认证,关于SASL的相关内容,...[作者空间]
Flink要求它使用的Hadoop集群必须是要添加Kerberos和SASL认证的,本节先介绍Kerberos认证...[作者空间]
Flink是目前在国内非常流行的大数据的计算框架,其设计理念可以完美的实现数据的批流计算一体化。Flink的集群,...[作者空间]
本节我们会介绍一种在tasks之间共享可读写变量的方式,就是累加器变量。 累加器变量 累加器变量是在tasks之间...[作者空间]
在Spark中,我们通过将数据分区的方式,避免任务之间的数据通信,使每个任务都可以独立执行,通信只有在shuffl...[作者空间]
从本节开始,我们将从理论转向实践,介绍在Spark运行程序时内部做了哪些事情。这一节将重点关注在cluster模式...[作者空间]
之前我们介绍了Spark的RDD,transformations和actions的概念,这一节我们来看看Spark...[作者空间]
之前我们讲过,Spark中的transformations,只有在真正需要的时候才会执行计算,这里计算的触发器被称...[作者空间]
这一节我们会继续介绍和key相关的transformations算子。 GroupByKey GroupByKey...[作者空间]
前一篇我们介绍了RDD的概念,知道了RDD是一组只读并且支持分区的数据集。创建RDD的第一种方式是读取文件,本节我...[作者空间]
本节我们将介绍Spark是如何管理中间数据的,以及我们如何配置数据的访问模式,引导Spark实现更高的可用性和更好...[作者空间]
Spark简介 Spark是目前比较流程的大数据计算引擎。在Spark出现之前,MapReduce已经作为大数据领...[作者空间]
索引删除 随着数据的不断写入,ES中的index数也会持续增加,当达到某个临界值之后,ES集群会出现查询性能的急剧...[作者空间]
Druid是一款开源的,为实时和离线数据的亚秒级查询设计的数据存储引擎。它主要用于对事实数据(event data...[作者空间]
整体架构 Druid集群是由一组扮演不同角色的,功能不同的节点组成的,我们先从这幅图介绍一下几类节点,以及它们之间...[作者空间]