Kudu表结构设计最佳实践 1.字段设计 字段数量最好不要超过300个 除主键外,其他字段可以为空 每一个字段均可...[作者空间]
定义 SparkSql是Apache Spark大数据框架的一部分,主要用于处理结构化数据和对Spark数据执行类...[作者空间]
Spark Streaming是Spark核心api的一个拓展,可以实现高吞吐量/具备容错机制的实时流数据的处理S...[作者空间]
针对以下wordCount的实现原理以画图的方式进行分析 代码 图解[作者空间]
在代码实现之前,先查看一下数据源是怎样的 截取了文本的第一段,已经对文本进行预处理,以空格将单词分割。 Java实...[作者空间]
在Spark中,每一个进程包含一个executor对象,一个executor包含一个线程池,每个线程执行一个tas...[作者空间]
上一篇文章---Spark概述:https://www.jianshu.com/p/8f48abff7a5b 这篇...[作者空间]
Spark,是一种通用的大数据计算框架,正如传统大数据技术Hadoop的MapReduce、Hive引擎,...[作者空间]