Spark 07

作者: 山猪打不过家猪 | 来源:发表于2023-09-10 15:46 被阅读0次

    1.创建一个spark

    • 配置,学习用途,选择最小配置


      image.png

    2.在synapse里使用spark

    • 创建


      image.png
    • 这样就类似于jupyter一样的功能了

    3. pyspark

    3.1 基本操作

    1. 创建spark 对象
    from pyspark.sql import SparkSession
    spark = SparkSession.builder.appName("example").getOrCreate()
    
    1. 读取器csv
    df_pyspark = spark.read.option('header','true').csv('test1.csv')
    
    image.png

    3.查看结构

    df_pyspark.printSchema()
    
    image.png

    4.读取表格

    df_pyspark.show()
    

    5.读取表头信息

    df_pyspark.head()
    

    6.根据列明选择列

    df_pyspark.select(['Name','Age']).show()
    

    7.添加一列

    df_pyspark.withColumn('Gender',df_pyspark['1'])
    

    8.重命名列明

    df_pyspark. withColunmRenamed('Name','New Name')
    

    9.删除列

    df_pyspark.drop('Gender’)
    

    3.2 数据处理

    1.读取数据

    from pyspark.sql import SparkSession 
    
    spark = Spark.Session.builder.appName('Practise').getOrCreate()
    spark.read.csv('test2.csv',header=True, inferSchema=True)
    
    

    2.删除有空值的指定列

    df_pyspark.na.drop(how='any', subset=['Age'])
    

    3.填充缺失值

    df_pyspark.na.fill('0','Age').show()
    

    3.3 过滤

    1.工资低于2000的人

    df_pyspark.filter('Salary<=2000').show()
    #选择需要的列
    df_pyspark.filter('Salary<=2000').select(['Name','Salary']).show()
    
    1. 使用|(and)连接多个条件
    df_pyspark.filter((df_pyspark['Salary']>=2000) | df_pyspark['Salary']<=15000))
    
    1. ~(not)
    df_pyspark.filter(~df_pyspark['Salary']<=2000).show()
    
    

    3.4 分组聚合

    df_pyspark.groupBy('Name').sum().show()
    

    相关文章

      网友评论

          本文标题:Spark 07

          本文链接:https://www.haomeiwen.com/subject/hbdsvdtx.html