阅读难度:★★★☆☆阅读时长:10min Python可以用来对较少样本进行机器学习建模,当需要训练大规模数据集时...[作者空间]
特征处理相关的算法,大体分为以下三类: 特征抽取:从原始数据中抽取特征特征转换:特征的维度、特征的转化、特征的修改...[作者空间]
准备 Spark2.0以上版本的pyspark创建一个名为spark的SparkSession对象,当需要手工创建...[作者空间]
把DStream输出到文本文件中 为了不破坏以前的代码,我们单独复制上面这些代码到新的文件中,执行如下代码:cp ...[作者空间]
DStream转换操作包括无状态转换和有状态转换。 无状态转换:每个批次的处理不依赖于之前批次的数据。有状态转换:...[作者空间]
Flume的架构主要有一下几个核心概念: Event:一个数据单元,带有一个可选的消息头Flow:Event从源点...[作者空间]
Step1. Kafka的安装和准备 Apache Kafka 官方下载地址注意:Kafka_2.11-0.10....[作者空间]
Spark Streaming程序基本步骤 编写Spark Streaming程序的基本步骤是: 1.通过创建输入...[作者空间]
Step1. 让Spark包含Hive支持 为了让Spark能够访问Hive,必须为Spark添加Hive支持。按...[作者空间]
DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而...[作者空间]
Step1. 创建一个HBase表 /usr/local/hadoop目录下启动hadoop:./sbin/sta...[作者空间]
Spark提供了两种类型的变量:广播变量(broadcast variables)和累加器(accumulator...[作者空间]
虽然RDD中可以包含任何类型的对象,但是“键值对”是一种比较常见的RDD元素类型,分组和聚合操作中经常会用到。Sp...[作者空间]
这个系列是跟着林子雨老师的子雨大数据之Spark入门教程(Python版)所做的学习笔记。 软件源以及版本: sp...[作者空间]
Spark中针对RDD的操作包括创建RDD、RDD转换操作和RDD行动操作。 Step1. 启动HDFS和Spar...[作者空间]
step1. 在/usr/local/spark下创建python_code文件夹,把python程序代码和文件资...[作者空间]
Step1: 更新apt sudo apt-get update Step2: 安装SSH、配置SSH无密码登陆 ...[作者空间]