spark知识点

作者: lansane | 来源:发表于2017-06-16 08:31 被阅读0次

数据挖掘之Spark学习
Spark内核机制解析及性能调优
spark知识点
好程序员大数据高端班分享 Spark知识点集合
[Spark源码剖析] DAGScheduler划分stage
Spark概述（入门必看）
Spark--Spark RDD知识点总结
Spark面试知识点
Spark知识点总结
小白从零快速掌握数据湖架构开发（前沿技术Delta Lake）

1、自定义函数UDF

import org.apache.spark.sql.functions._

val myDF = sqlContext.parquetFile("hdfs:/to/my/file.parquet")

val coder: (Int => String) = (arg: Int) => {if (arg < 100) "little" else "big"}

val sqlfunc = udf(coder)

myDF.withColumn("Code", sqlfunc(col("Amt")))

2、自定义聚合函数UDAF

http://www.jianshu.com/p/833b72adb2b6

数据挖掘之Spark学习
阅读路线: Hadoop与Spark比较 Spark的安装 Spark知识点一、Hadoop与Spark比较简...
Spark内核机制解析及性能调优
Spark内核机制解析及性能调优致力于Spark内核的深入解析，带领读者掌握Spark内核的各个关键知识点。具体内...
spark知识点
1、自定义函数UDF import org.apache.spark.sql.functions._ val my...
好程序员大数据高端班分享 Spark知识点集合
好程序员大数据高端班分享 Spark知识点集合Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应...
[Spark源码剖析] DAGScheduler划分stage
划分stage源码剖析本文基于Spark 1.3.1 先上一些stage相关的知识点： DAGScheduler...
Spark概述（入门必看）
Spark系列的文章将对Spark技术进行一个梳理和总结，在介绍知识点时尽可能地以通俗易懂的方式来展开，希望能够...
Spark--Spark RDD知识点总结
Spark RDD五大属性 1） A list of partitions ：有很多分区（Partitions），...
Spark面试知识点
一.Spark架构 1.Spark架构中的组件 2.spark架构揭示了spark的具体流程如下：二.RDD 1...
Spark知识点总结
1.什么是Spark？Spark 大规模数据处理的快速通用的计算引擎。Spark来源于Hadoop MapRedu...
小白从零快速掌握数据湖架构开发（前沿技术Delta Lake）
从零学习数据湖的相关概念，并通过Hadoop、Spark、Delta Lake等框架实现数据湖架构，通过知识点 +...