美文网首页
Python数据预处理填充缺失值

Python数据预处理填充缺失值

作者: Yobhel | 来源:发表于2021-12-19 16:06 被阅读0次

    1.数据统计

    a.用describe函数对数据快速统计汇总

    分析df['taixin']

     df['taixin'].describe()
    

    我们希望每一个数据都是float类型或者int类型,如图1-2。可以非常快速的统计出这一列的均值、最大最小值等等。如果之前没有处理好出现了文本,则结果如图1-1所示。

    图1-1 图1-2

    b.用distplot函数看数据

    seaborn的distplot()集合了matplotlib的hist()与核函数估计kdeplot的功能

    sns.distplot(df['taixin']) 
    plt.show()
    
    图1-3

    2.几种简单填充缺失值的方法

    a.固定值填充

    都填90

     df['taixin'] = df['taixin'].fillna('90')
    

    b.均值填充

    定要保证其余数据的都是int或float类型

    df['taixin'] = df['taixin'].fillna(df['taixin'] .mean())
    

    c.众数填充

    一定要保证其余数据的都是int或float类型

    df['taixin'] = df['taixin'].fillna(df['taixin'].mode()) 
    

    d.上下数据填充

    用前一个非缺失值填充

    df['taixin'] = df['taixin'].fillna(method='pad')
    

    用后一个非缺失值填充

    df['taixin'] = df['taixin'].fillna(method='bfill')
    

    e.插值法填充

    前后非缺失值的均值填充

    df['taixin'] = df['taixin'].interpolate()
    

    相关文章

      网友评论

          本文标题:Python数据预处理填充缺失值

          本文链接:https://www.haomeiwen.com/subject/ixdofrtx.html