《Spark学习笔记》专题

专题列表页

根据林子雨老师Spark入门(Python)版本课程学习所做的笔记整理。

——心有猛虎，细嗅蔷薇。

阅读难度：★★★☆☆阅读时长：10min Python可以用来对较少样本进行机器学习建模，当需要训练大规模数据集时...[作者空间]

特征处理相关的算法，大体分为以下三类：特征抽取：从原始数据中抽取特征特征转换：特征的维度、特征的转化、特征的修改...[作者空间]

准备 Spark2.0以上版本的pyspark创建一个名为spark的SparkSession对象，当需要手工创建...[作者空间]

把DStream输出到文本文件中为了不破坏以前的代码，我们单独复制上面这些代码到新的文件中，执行如下代码：cp ...[作者空间]

DStream转换操作包括无状态转换和有状态转换。无状态转换：每个批次的处理不依赖于之前批次的数据。有状态转换：...[作者空间]

Flume的架构主要有一下几个核心概念： Event：一个数据单元，带有一个可选的消息头Flow：Event从源点...[作者空间]

Step1. Kafka的安装和准备 Apache Kafka 官方下载地址注意：Kafka_2.11-0.10....[作者空间]

Spark Streaming程序基本步骤编写Spark Streaming程序的基本步骤是： 1.通过创建输入...[作者空间]

Step1. 让Spark包含Hive支持为了让Spark能够访问Hive，必须为Spark添加Hive支持。按...[作者空间]

DataFrame的推出，让Spark具备了处理大规模结构化数据的能力，不仅比原有的RDD转化方式更加简单易用，而...[作者空间]

Step1. 创建一个HBase表 /usr/local/hadoop目录下启动hadoop:./sbin/sta...[作者空间]

Spark提供了两种类型的变量：广播变量（broadcast variables）和累加器（accumulator...[作者空间]

虽然RDD中可以包含任何类型的对象，但是“键值对”是一种比较常见的RDD元素类型，分组和聚合操作中经常会用到。Sp...[作者空间]

这个系列是跟着林子雨老师的子雨大数据之Spark入门教程(Python版)所做的学习笔记。软件源以及版本： sp...[作者空间]

Spark中针对RDD的操作包括创建RDD、RDD转换操作和RDD行动操作。 Step1. 启动HDFS和Spar...[作者空间]

step1. 在/usr/local/spark下创建python_code文件夹，把python程序代码和文件资...[作者空间]

Step1: 更新apt sudo apt-get update Step2: 安装SSH、配置SSH无密码登陆 ...[作者空间]