Spark 07

作者: 山猪打不过家猪 | 来源:发表于2023-09-10 15:46 被阅读0次

spark中DataFrame的使用方法
Spark监控地址
Spark使用过程的个人经验
Spark SQL Dataframe 写入oracle
Spark机器学习实例
spark题07
《Learning Spark》第七章：Spark集群运行
《Learning Spark》第八章：调优及调试spark应用
记录两两相比问题
大数据面试必备知识点总结：Spark，Hadoop，kafka，

1.创建一个spark

配置，学习用途，选择最小配置

image.png

2.在synapse里使用spark

创建

image.png
这样就类似于jupyter一样的功能了

3. pyspark

3.1 基本操作

创建spark 对象

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("example").getOrCreate()

读取器csv

df_pyspark = spark.read.option('header','true').csv('test1.csv')

image.png

3.查看结构

df_pyspark.printSchema()

image.png

4.读取表格

df_pyspark.show()

5.读取表头信息

df_pyspark.head()

6.根据列明选择列

df_pyspark.select(['Name','Age']).show()

7.添加一列

df_pyspark.withColumn('Gender',df_pyspark['1'])

8.重命名列明

df_pyspark. withColunmRenamed('Name','New Name')

9.删除列

df_pyspark.drop('Gender’)

3.2 数据处理

1.读取数据

from pyspark.sql import SparkSession 

spark = Spark.Session.builder.appName('Practise').getOrCreate()
spark.read.csv('test2.csv',header=True, inferSchema=True)

2.删除有空值的指定列

df_pyspark.na.drop(how='any', subset=['Age'])

3.填充缺失值

df_pyspark.na.fill('0','Age').show()

3.3 过滤

1.工资低于2000的人

df_pyspark.filter('Salary<=2000').show()
#选择需要的列
df_pyspark.filter('Salary<=2000').select(['Name','Salary']).show()

使用|(and)连接多个条件

df_pyspark.filter((df_pyspark['Salary']>=2000) | df_pyspark['Salary']<=15000))

~(not)

df_pyspark.filter(~df_pyspark['Salary']<=2000).show()

3.4 分组聚合

df_pyspark.groupBy('Name').sum().show()

网友评论

本文标题：Spark 07

本文链接：https://www.haomeiwen.com/subject/hbdsvdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Spark 07

1.创建一个spark

2.在synapse里使用spark

3. pyspark

3.1 基本操作

3.2 数据处理

3.3 过滤

3.4 分组聚合

相关文章

spark中DataFrame的使用方法

Spark监控地址

Spark使用过程的个人经验

Spark SQL Dataframe 写入oracle

Spark机器学习实例

spark题07

《Learning Spark》第七章：Spark集群运行

《Learning Spark》第八章：调优及调试spark应用

记录两两相比问题

大数据面试必备知识点总结：Spark，Hadoop，kafka，

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读