计算速度 计算的速度是取决于计算机本身的计算能力的。并且目前来看,所有的计算机计算都是基于内存的(如果有不是的,请...[作者空间]
前言 在N久之前,曾写过kafka 生产者使用详解,今天补上关于 offset 相关的内容。那么本文主要涉及: K...[作者空间]
原文地址 2019年11月08日 数砖的 Xingbo Jiang 大佬给社区发了一封邮件, 宣布 Apache...[作者空间]
前言 Kafka 提供了数据高可靠的特性,但是如果使用不当,你可能无法享受到这一特性,今天我们就来看看如何正确的使...[作者空间]
转载自: lxw的大数据田地 前言 GROUPING SETS,GROUPING__ID,CUBE,ROLLUP这...[作者空间]
前言 本篇文章主要是从作业提交到最后获取到作业结果,从源码的角度,但是不涉及源码进行的分析.其目的是读完本篇文章,...[作者空间]
Spark On Yarn 资源申请流程 Client 模式因为是Client模式,所以当我们 Spark-Sub...[作者空间]
这是一篇是划水的。。。。随便看看就好!!!! Spark特点 以下特点来源官网主页,仅做翻译 Speed(快)Ap...[作者空间]
前言 今天 Review 了一下同事的代码,发现其代码中有非常多的 mapPartitions,问其原因,他说性能...[作者空间]
前言 对于 Spark 开发者来说 Scala 终究是个绕不过去的坎,而 对于 Scala ,隐式转换终究也是一个...[作者空间]
前言 本文主要是一篇总结性文章,将列举绝大部分的 Spark 算子以及其常用场景 Transformation 算...[作者空间]
前言 常年浪迹与各种高级语言的我们,是否还记得哪些基础中的基础呢?今天就让我们一起来回忆一下计算机的那一串 010...[作者空间]
前言 好久没有写文章了,然后一连就写了三篇,前两篇文章Storm入门(一):编程模型Storm入门(二):架构模型...[作者空间]
前言 上一篇文章我们通过 Storm 的本地模式对其编程模型进行了讲述....本篇文章我们来讲一讲 Storm 的...[作者空间]
前言 本文是 storm 入门第一篇,因为 Storm 的本地模式体验极其简单,故而我希望第一篇我们先来体验一下 ...[作者空间]
Hive简单优化与定期ETL Hive优化 Hive的执行依赖于底层的MapReduce作业,因此对Hadoop作...[作者空间]
RDB RDB是什么? Redis持久化数据的两种方式之一,另外一种是AOF。Redis会定期保存数据快照至一个r...[作者空间]
作者:陈越晨 整理:刘河 本文将为大家介绍Apache Flink在爱奇艺的生产与实践过程。你可以借此了解到爱奇艺...[作者空间]
一,数据块的大小 众所周知,hdfs上的数据块的大小是64M或是128M。那么为什么呢? 1.减少寻道时间,对于h...[作者空间]
这里就不啰嗦了,直接贴代码,然后拿来运行就可以看到结果了,不过请注意该代码是基于 movelens 数据,所以想要...[作者空间]