前言 Spark成功的实现了当年的承诺,让数据处理变得更容易,现在,雄心勃勃的Databricks公司展开了一个新...[作者空间]
2017年有不少大数据学员学成准备参加工作,在参加工作前最重要的一轮就是大数据的面试,小编收集了一些2017大数据...[作者空间]
欢迎关注我的微信公众号:FunnyBigData 在《Spark 内存管理的前世今生(上)》中,我们介绍了 Uni...[作者空间]
1. 基本概念 1.1 hdfs是什么? 分布式的文件系统,由多个服务器联合起来实现功能。用来解决海量数据的存储问...[作者空间]
学习笔记 时间:2017年2月7日 使用工具:1. 在办公电脑上安装的Ubuntu虚拟机 编程语言:scala v...[作者空间]
Spark源码分析:DAGScheduler 概述 在RDD一文中提到: 定义RDD之后,程序员就可以在动作(注:...[作者空间]
早就想写这章了,一直懒得动笔,不过还好,总算静下心来完成了。 刚接触Spark时,很希望能对它的运行方式有个直观的...[作者空间]
本文最初由IBM developerWorks中国网站发表,其链接为Apache Spark内存管理详解在这里,正...[作者空间]
本文最初由IBM developerWorks中国网站发表,其链接为Apache Spark内存管理详解在这里,正...[作者空间]
Spark集群 一组计算机的集合,每个计算机节点作为独立的计算资源,又可以虚拟出多个具备计算能力的虚拟机,这些虚拟...[作者空间]
Mac安装ZooKeeper brew install zookeeper安装后zookeeper配置文件位置:/...[作者空间]
前言 都说【同化】是一种很神奇的力量,看着大家都发新年感悟,大致就是回顾2016展望2017,我也没把持住自己的【...[作者空间]
一.经验 1.Spark Streaming包含三种计算模式:nonstate .stateful .window...[作者空间]
认识HDFS HDFS的特点: 高容错性高吞吐量故障的检测和自动快速恢复流式的数据访问大数据集一次写入,多次读写 ...[作者空间]
由于最近学习大数据开发,spark作为分布式内存计算框架,当前十分火热,因此作为首选学习技术之一。Spark官方提...[作者空间]
前言 大数据处理技术应用: [x] 电信运营商 数据营销:房地产营销、运营商时代(汇聚用户行为) [x] 互联网用...[作者空间]
撰写本文时 Spark 的最新版本为 2.0.0 概述 Spark SQL 是 Spark 用来处理结构化数据的一...[作者空间]
上次在做内部培训的时候,我讲了这么一句: 一个Job里的Stage都是串行的,前一个Stage完成后下一个Stag...[作者空间]
一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存,当集群中运行的任务...[作者空间]
前言 Spark 2.0 将流式计算也统一到DataFrame里去了,提出了Structured Streamin...[作者空间]