美文网首页科研信息学
缺失值的处理方法(基于sklearn)

缺失值的处理方法(基于sklearn)

作者: 生信编程日常 | 来源:发表于2020-10-11 23:08 被阅读0次
1. 直接丢掉带有缺失值的行/列
reduced_X_train = X_train.dropna(axis = 1)
reduced_X_valid = X_valid.dropna(axis = 1)

axis = 1是丢掉列,axis = 0是丢掉行。

2. Imputation

Imputation就是用每一列的均值/中位数/最大频率的数等去补充缺失值。值得注意的是对于valid的数据而言,fit的时候仍然要用train的数据。strategy也可以修改为其他的方法。

from sklearn.impute import SimpleImputer

imp_mean = SimpleImputer(strategy='mean')
imputed_X_train = pd.DataFrame(imp_mean.fit_transform(X_train))
imputed_X_valid = pd.DataFrame(imp_mean.transform(X_valid))

imputed_X_train.columns = X_train.columns
imputed_X_valid.columns = X_valid.columns

以上方法来自与kaggle的机器学习课程(推荐):https://www.kaggle.com/alexisbcook/missing-values

相关文章

  • 缺失值的处理方法(基于sklearn)

    1. 直接丢掉带有缺失值的行/列 axis = 1是丢掉列,axis = 0是丢掉行。 2. Imputation...

  • Sklearn Impute SimpleImputer 处理缺

    Sklearn 有专门处理缺失值的模块 sklearn.impute.SimpleImputer,本文将探究如何用...

  • sklearn-3.预处理数据

    导入数据之后要做的是预处理,sklearn.preprocessing,主要分为几个方面。1.缺失值的处理缺失值我...

  • 数据处理

    1、缺失值填充 2、sklearn预处理包:https://blog.csdn.net/weixin_408072...

  • 121、处理缺失数据

    处理缺失数据 滤除缺失数据 填充缺失数据 如果全为NA值则插值方法不起作用。 源码:

  • R数据数据缺失值处理

    处理缺失值的步骤一般为: 识别缺失值 补全个案或删除个案 个案、行都是指代一个意思 识别缺失值 识别缺失值的方法很...

  • 数据预处理中缺失值的处理

    在做数据分类时,训练数据中总会存在一些缺失值,那么怎么处理缺失值有哪些方法呢? 最简单的方法就是删除缺失值所在的数...

  • 随机森林如何处理缺失值

    序 RF中有相应的缺失值处理方法,本次记录其两种缺失值处理技巧 暴力填补 Python中的na.roughfix包...

  • xgboost是如何处理缺失值的

    缺失值的处理办法: 删除法: 简单删除法:此方法将存在缺失值的数据条目(对象,元组,记录)进行删除 权重法:当缺失...

  • Series第五讲 缺失值处理

    Series第五讲 缺失值处理 本节课将讲解如何处理pandas里的缺失值 缺失值处理 Series.fillna...

网友评论

    本文标题:缺失值的处理方法(基于sklearn)

    本文链接:https://www.haomeiwen.com/subject/sypypktx.html