《Big Data Application》专题

专题列表页

最近公司搭建了Clickhouse的集群，作为一款久负盛名的高性能OLAP查询引擎，我们也针对自己的使用场景的进行...[作者空间]

前面的准备工作做好之后，我们来搭建带Kerberos和SASL的完全分布式的Hadoop集群。 1. 集群环境准备...[作者空间]

接前文，在安装完Kerberos之后，Flink仍然需要Hadoop集群使用SASL认证，关于SASL的相关内容，...[作者空间]

Flink要求它使用的Hadoop集群必须是要添加Kerberos和SASL认证的，本节先介绍Kerberos认证...[作者空间]

Flink是目前在国内非常流行的大数据的计算框架，其设计理念可以完美的实现数据的批流计算一体化。Flink的集群，...[作者空间]

本节我们会介绍一种在tasks之间共享可读写变量的方式，就是累加器变量。累加器变量累加器变量是在tasks之间...[作者空间]

在Spark中，我们通过将数据分区的方式，避免任务之间的数据通信，使每个任务都可以独立执行，通信只有在shuffl...[作者空间]

从本节开始，我们将从理论转向实践，介绍在Spark运行程序时内部做了哪些事情。这一节将重点关注在cluster模式...[作者空间]

之前我们介绍了Spark的RDD，transformations和actions的概念，这一节我们来看看Spark...[作者空间]

之前我们讲过，Spark中的transformations，只有在真正需要的时候才会执行计算，这里计算的触发器被称...[作者空间]

这一节我们会继续介绍和key相关的transformations算子。 GroupByKey GroupByKey...[作者空间]

前一篇我们介绍了RDD的概念，知道了RDD是一组只读并且支持分区的数据集。创建RDD的第一种方式是读取文件，本节我...[作者空间]

本节我们将介绍Spark是如何管理中间数据的，以及我们如何配置数据的访问模式，引导Spark实现更高的可用性和更好...[作者空间]

Spark简介 Spark是目前比较流程的大数据计算引擎。在Spark出现之前，MapReduce已经作为大数据领...[作者空间]

索引删除随着数据的不断写入，ES中的index数也会持续增加，当达到某个临界值之后，ES集群会出现查询性能的急剧...[作者空间]

Druid是一款开源的，为实时和离线数据的亚秒级查询设计的数据存储引擎。它主要用于对事实数据（event data...[作者空间]

整体架构 Druid集群是由一组扮演不同角色的，功能不同的节点组成的，我们先从这幅图介绍一下几类节点，以及它们之间...[作者空间]