美文网首页
Python数据预处理填充缺失值

Python数据预处理填充缺失值

作者: 玫瑰哥哥 | 来源:发表于2018-09-22 10:23 被阅读0次

    1.分析df['taixin']

    # 用describe函数对数据快速统计汇总

    df['taixin'].describe()

        我们希望每一个数据都是float类型或者int类型,如图1-2。可以非常快速的统计出这一列的均值、最大最小值等等。如果之前没有处理好出现了文本,则结果如图1-1所示。

    图1-1 图1-2

    【用distplot函数看数据】

    #seaborn的distplot()集合了matplotlib的hist()与核函数估计kdeplot的功能 

    sns.distplot(df['taixin']) 

    plt.show()

    图1-3

    2.几种简单填充缺失值的方法

    【固定值填充】

    #都填90

    df['taixin'] = df['taixin'].fillna('90')

    【均值填充】

    #一定要保证其余数据的都是int或float类型

    df['taixin'] = df['taixin'].fillna(df['taixin'] .mean())

    【众数填充】

    #一定要保证其余数据的都是int或float类型

    df['taixin'] = df['taixin'].fillna(df['taixin'] .mode()) 

    【上下数据填充】

    #用前一个非缺失值填充

     df['taixin'] = df['taixin'].fillna(method='pad') 

    #用后一个非缺失值填充

     df['taixin'] = df['taixin'].fillna(method='bfill') 

    【插值法填充】

    #前后非缺失值的均值填充

     df['taixin'] = df['taixin'].interpolate() 


    今天先到这,日后慢慢补充

    相关文章

      网友评论

          本文标题:Python数据预处理填充缺失值

          本文链接:https://www.haomeiwen.com/subject/ubvtoftx.html