Python数据分析:缺失值处理

作者: 可乐的数据分析之路 | 来源:发表于2020-04-04 15:27 被阅读0次

    写在前面

    上周我们读取完了数据(Python数据分析实战:获取数据),下面就要对数据进行清洗了,首先是对缺失值的处理。缺失值也就是空值,先找出来再处理。

    查看缺失值

    可以使用isnull方法来查看空值,得到的结果是布尔值。

    # 查看缺失值
    df_list.isnull()
    

    结果:


    对于小的数据集来说,可以这样看,但对于大的数据集这样查看空值貌似没什么意义,没关系,还有其他方法,可以使用info方法

    # 查看空值
    df_list.info()
    

    结果:


    info方法可以看到字段的数据类型以及每个字段下有多少个非空值,可以看到neighbourhood_group 字段全为空,这和布尔值显示的结果一致。

    其实还有一个方法,更简单了:

    # 查看空值
    df_list.isnull().sum()
    

    对取出来的isnull的布尔值求和,就很明显地看到,id列是没有空值的,name列有一个空值,结果:


    也可以对单独的某一列这样查看空值,对name列查看空值

    # 对单独一列查看空值
    df_list["name"].isnull().sum()
    

    结果为1,说明name列有1个空值:


    缺失值的处理

    找到缺失值以后如何处理呢?删除或填充。

    删除缺失值

    用dropna方法,默认是只要一行中有一个缺失值这一行就全都删除

    # 删除缺失值
    df_list.dropna()
    

    结果就是这个数据集里的数据全被删掉了,因为其中的neighbourhood_group这个字段全为空,按照dropna的尿性,有一个为空就整行删除,就得到了如下结果:


    当然也可以给这个方法传入how="all"参数,只有在整行为空的前提下才删除。

    # 整行都为空才删除
    df_list.dropna(how = "all")
    

    结果是一条都没有删除,因为这个数据集里没有所有字段都为空的记录:



    但是有一列数据都为空的字段,把neighbourhood_group这一列删掉,还记得删除列的方法吗

    # 删除列
    df_list = df_list.drop(columns = "neighbourhood_group")
    df_list
    

    结果:



    name列也是有一个空值的,找出来看一下

    # 定位到name列的空值
    df_list[df_list["name"].isnull()]
    

    结果如下,这一行还是删了吧。



    删除行用drop方法,刚刚定位出了要删除的那一行,行索引是456

    # 删除name列的空值的行
    df_list = df_list.drop(index = 456)
    df_list
    

    结果可以看到变成了28451行,之前一直都是28452行。


    缺失值填充

    当然缺失值除了删除外,还可以进行填充,可以用0填充,也可以用均值、众数填充。用fillna方法进行缺失值的填充。

    last_review和reviews_per_month这两列也有缺失值,我们用众数填充(mode)last_review列的缺失值,用均值(mean)填充reviews_per_month列的缺失值。

    # 缺失值填充
    df_list.fillna({"last_review":df_list.last_review.mode(),
                     "reviews_per_month":df_list.reviews_per_month.mean()})
    

    结果


    这里只是举例缺失值也可以被填充这样处理,在这个案例里,不建议这两列填充,空着就空着吧。下节内容来处理重复值和异常值。

    写在后面

    感觉要和大家说一下我的发文思路,其实相信你已经发现了,每周一雷打不动的一定是可乐的原创文章首发,周三和周五是读者投稿,或者是我从其他公众号选的非常棒的文章转发,又或者不是很忙的话还可以再发一篇原创,周末就随意了,发文时间一般是早上8点到9点之间,早高峰,可能大家坐地铁的时候就利用这个碎片化时间恰好阅读一下吧,周末发文一般是中午或晚上。

    加油!


    猜你喜欢
    Python数据分析实战:获取数据

    《吊打分析师》实战—我要租个好房

    为什么要学统计学:赤裸裸的统计学

    成为数据分析师的第三年,我写了10W字

    简单的Excel数据分析案例

    @ 作者:可乐
    @ 公众号/知乎专栏/头条/简书:可乐的数据分析之路
    @ 加微信(data_cola)备注:进群,拉你进可乐的数据分析交流群,数据分析知识总结,不定期行业经验分享


    相关文章

      网友评论

        本文标题:Python数据分析:缺失值处理

        本文链接:https://www.haomeiwen.com/subject/abssuhtx.html