伴随Spark技术的普及推广,对专业人才的需求日益增加。Spark专业人才在未来也是炙手可热,轻而易举可以拿到百万...[作者空间]
Spark是粗粒度的,即在默认情况下会预先分配好资源,再进行计算。 好处是资源提前分配好,有计算任务时就直接使用计...[作者空间]
启动Receiver的方式: 1.把每个Receiver都封装成为task,这个task是这个job中唯一的tas...[作者空间]
Spark Streaming应用程序有以下特点: 1. 不断持续接收数据 2. Receiver和Driver不...[作者空间]
一:Receiver启动的方式设想 1.Spark Streaming通过Receiver持续不断的从外部数据源接...[作者空间]
RDD的三个问题 1.RDD到底是怎么生成的 2.具体执行的时候,是否和基于Spark Core上的RDD有所不同...[作者空间]
spark的核心是sparkcore,sparkstreaming,sparkgraph,sparkmlib其实是...[作者空间]
最近在项目中遇到二次排序的需求,和平常开发spark的application一样,开始查看API,编码,调试,验证...[作者空间]
一. 背景 hdfs,map-reduce,spark,yarn是大数据处理的基础组件。在发展了几年之后,已经成为...[作者空间]
在使用spark streaming消费kafka数据时,程序异常中断下发现会有数据丢失的情况。下文将说明如何避免...[作者空间]
Pair RDD基本操作 虽然大部分Spark的RDD操作都支持所有种类的对象,但是有少部分特殊的操作只能作用于键...[作者空间]
在大量数据中对一些字段进行关联。 举例 ipTable:需要进行关联的几千条ip数据(70k)hist:历史数据(...[作者空间]
将多份数据进行关联是数据处理过程中非常普遍的用法,不过在分布式计算系统中,这个问题往往会变的非常麻烦,因为框架提供...[作者空间]
程序中可能会使用到spark提供的累加器功能,可是如果你不了解它的运行机制,有时候会带来一些负面作用(错误的累加结...[作者空间]
Spark 1.6+推出了以RPCEnv、RPCEndpoint、RPCEndpointRef为核心的新型架构下的...[作者空间]
1.start-all.sh脚本分析 我们可以从start-all.sh脚本源文件中看到它其实是start-mas...[作者空间]
这篇文章由一次平安夜的微信分享整理而来。在Stuq 做的分享,原文内容。 业务场景 这次分享会比较实战些。具体业务...[作者空间]
看这篇文章前,请先移步Spark Streaming 数据产生与导入相关的内存分析, 文章重点讲的是从Kafka消...[作者空间]
CentOS下安装hadoop 用户配置 添加用户 权限配置 关闭防火墙 查看防火墙状态 关闭防火墙 查看防火墙开...[作者空间]
Spark学习 一、Spark简介 1.Hadoop中Map-Reduce计算框架的替代品 2.运行在HDFS上,...[作者空间]