【Spark学习笔记】Scala基础（一）

作者: 不可能打工 | 来源:发表于2019-07-23 16:41 被阅读0次

Spark技术实战之基础篇
从零开始学习Spark（二）Scala基础
【Spark学习笔记】Scala基础（一）
Scala笔记
SparkCore基础（一）
spark
spark集群搭建
Scala编程基础1：Scala简介
Spark原理简述
搭建scala开发环境

RDDs的创建方法：

加载外部数据集
val rddText=sc.textFile("helloSpark.txt")

Scala变量声明：

val：变量值不可修改，一旦分配不能重新指向别的值
var：分配后，可以指向类型相同的值

val lines=sc.textFile("helloSpark.txt")
lines=sc.textFile("helloSpark.txt")
var lines=sc.textFile("helloSpark.txt")
lines=sc.textFile("helloSpark2.txt")

Scala的匿名函数和类型推断

lines.filter(line=>line.contains("world"))

定义一个匿名函数，接受一个参数line，使用line这个String类型变量上的contains方法，并且返回结果。line的类型不需要指定，能够推断出来。

Transformation

Transformations(转换)，从之前的RDD
构建一个新的RDD，像map()和filter()

逐元素Transformation
map():map()接受函数，把函数应用到RDD的每一个元素，返回新的RDD。

val lines=sc.parallelize(Array("hello","spark","hello","world","!"))
lines.foreach(println)
hello
spark
hello
world
!

val lines2=lines.map(word=>(word,1))
lines2.foreach(println)
(hello,1)
(spark,1)
(hello,1)
(world,1)
(!,1)

flatMap():
对每个输入元素，输出多个输出元素。flat压扁的意思，将RDD中元素压扁后返回一个新的RDD。

inputs.foreach(println)
hello !
hello spark
hello world
val lines=inputs.flatMap(line=>line.split(" "))
lines.foreach(print)
hellosparkhelloworldhello! #拆开打散压扁了

集合运算

RDDs支持数学集合的计算，例如并集，交集计算。

val rdd1=sc.parallelize(Array("caffe","caffe","panda","monkey","tea"))
val rdd2=sc.parallelize(Array("caffe","monkey","kitty"))

去重

val rdd_distinct=rdd1.distinct()
rdd_distinct.foreach(println)
monkey
coffe
panda
tea

并集

rdd_union=rdd1.union(rdd2)
rdd_union.foreach(println)
caffe

caffe
panda
monkey
tea
caffe
monkey
kitty

交集

val rdd_inter=rdd1.intersection(rdd2)
rdd_inter.foreach(println)
monkey
coffe

减集

val rdd_sub=rdd1.subtract(rdd2)
rdd_sub.foreach(println)
tea
panda

网友评论

本文标题：【Spark学习笔记】Scala基础（一）

本文链接：https://www.haomeiwen.com/subject/egqalctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

【Spark学习笔记】Scala基础（一）

RDDs的创建方法：

Scala变量声明：

Scala的匿名函数和类型推断

Transformation

集合运算

相关文章

Spark技术实战之基础篇

从零开始学习Spark（二）Scala基础

【Spark学习笔记】Scala基础（一）

Scala笔记

SparkCore基础（一）

spark

spark集群搭建

Scala编程基础1：Scala简介

Spark原理简述

搭建scala开发环境

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读