Pyspark DataFrame基础

作者: 熊定坤 | 来源:发表于2019-01-09 14:10 被阅读0次

1.读取csv

import pandas as pd
from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName('my_first_app_name') \
    .getOrCreate()
file = r'C:\Users\Administrator\Desktop\kaggle泰坦尼克号获救率预测数据集\train.csv'
df = spark.read.csv(file,header=True,inferSchema=True)
df.show(5)

2. 查看字段类型同pandas

df.dtypes

[('PassengerId', 'int'),
('Survived', 'int'),
('Pclass', 'int'),
('Name', 'string'),
('Sex', 'string'),
('Age', 'double'),
('SibSp', 'int'),
('Parch', 'int'),
('Ticket', 'string'),
('Fare', 'double'),
('Cabin', 'string'),
('Embarked', 'string')]

3. 查看列名同pandas

df.columns

['PassengerId',
'Survived',
'Pclass',
'Name',
'Sex',
'Age',
'SibSp',
'Parch',
'Ticket',
'Fare',
'Cabin',
'Embarked']

4. 查看行数 pandas len(df)

df.count()

891

5. 重命名列名

pandas df.rename(columns={'Sex':sex})

#withColumnRenamed方法
df = df.withColumnRenamed('Age','age')\
    .withColumnRenamed('Sex','sex')
df.columns

6.选择和切片

6.1 选择一列

df.select('Age').show(2)

6.2 选择多列

df.select('Name','Age').show(2)

6.3 多列选择和切片

df.select('Name','Age')\
    .filter(df['Age']>70).show()

6.4 between 范围选择

df.filter(df['Age'].between(68,72))\
    .select('Name','Age').show()

6.5 联合筛选

df.filter(df['Age']>30)\
    .filter(df['Sex']=='male')\
    .select('Name','Sex','Age').show()

6.6 like 包含文字信息

df.filter("Name like '%Mrs%'").show()

6.7 sql方式选择

# 首先dataframe注册为临时表，然后执行SQL查询
df.createOrReplaceTempView('df_sql')
spark.sql('select Name,Age,Sex from df_sql where Age>30 and Age<35').show()

7. 删除某行

df.drop('PassengerId').show()

8. 增加某列

import pyspark.sql.functions as fn
df.withColumn('id',fn.lit(0)).show()

9. 排序

#pandas 排序
#df.sort_values()
#排序
df.sort('age',ascending=False).show()#ascending=False 倒序
#多列排序
df.sort('age','fare',ascending=False).show()
#混合排序
df.sort(df['Age'].desc(),df['Fare'].asc()).show()#age字段倒序,fare字段正序
# orderBy也是排序，返回的Row对象列表
df.orderBy('age','fare').take(3)

10. 重复值

#查看是否有重复项

print('去重前行数',df.count())
print('去重后行数',df.distinct().count())
#去除重复行,同pandas
df.drop_duplicates()

去重前行数 891
去重后行数 891

11. 缺失值

#查看各字段缺失率
df.agg(*[(1-(fn.count(c) /fn.count('*'))).alias(c) for c in df.columns]).show()
#其中age，Cabin，Embarked字段有缺失

#Cabin 缺失率较大删除该字段
df = df.drop('cabin')
#age字段缺失率20%，填充均值
agg_mean = round(df.select(fn.mean('age')).collect()[0][0],0)
#Embarked缺失率较少，填充众数
#查看Embarked字段各分类总计
df.groupby('embarked').count().sort('count',ascending=False).show()
df = df.fillna({'age':agg_mean,'embarked':'S'})
#去除缺失值大于阈值的行
#df.drop(thresh=)

#姓名为字符型，从字符变量中提取有效信息
str1 = df.select(fn.split('name',',')[1].alias('name'))
str2 = str1.select(fn.split('name','. ')[0].alias('name'))

网友评论

本文标题：Pyspark DataFrame基础

本文链接：https://www.haomeiwen.com/subject/tvzwrqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Pyspark DataFrame基础

1.读取csv

2. 查看字段类型同pandas

3. 查看列名同pandas

4. 查看行数 pandas len(df)

5. 重命名列名

6.选择和切片

6.1 选择一列

6.2 选择多列

6.3 多列选择和切片

6.4 between 范围选择

6.5 联合筛选

6.6 like 包含文字信息

6.7 sql方式选择

7. 删除某行

8. 增加某列

9. 排序

10. 重复值

11. 缺失值

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Pyspark DataFrame基础

1.读取csv

2. 查看字段类型 同pandas

3. 查看列名 同pandas

4. 查看行数 pandas len(df)

5. 重命名列名

6.选择和切片

6.1 选择一列

6.2 选择多列

6.3 多列选择和切片

6.4 between 范围选择

6.5 联合筛选

6.6 like 包含文字信息

6.7 sql方式选择

7. 删除某行

8. 增加某列

9. 排序

10. 重复值

11. 缺失值

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

2. 查看字段类型同pandas

3. 查看列名同pandas