应用:数据预处理-缺失值填充

作者: slade_sal | 来源:发表于2017-06-21 17:33 被阅读1700次

个人不建议填充缺失值,建议设置哑变量或者剔除该变量,填充成本较高

常见填充缺失值的方法:

1.均值、众数填充,填充结果粗糙对模型训练甚至有负面影响

2.直接根据没有缺失的数据线性回归填充,这样填充的好会共线性,填充的不好就没价值,很矛盾

3.剔除或者设置哑变量

个人给出一个第二个方法的优化思路,供参考:

假设存在val1~val10的自变量,其中val1存在20%以上的缺失,现在用val2-val10的变量去填充val1,这边参考了两个模型的设计思路,一个是bagging算法的随机抽取避免过拟合,另一个是Tomek+Somte的填充方法

大概思路是:

1.随机选取val1里面的n/N个case(包括缺失case及非缺失case)作为样本,随机选取val2-val10内的m个衡量特征

2.然后根据选择的具体的m个数据的衡量特征选择相似度计算方式(常见的直接算距离、余弦相似度之类),找出3-5个最临近的非缺失case或者最远的非缺失case(这里涉及全局或者局部最优)

3.构造新的val1填充缺失的val1,新val1计算方式可以为3-5个非缺失的众数、重心、随机游走、加权填充等

4.重复若干次,填充完所有缺失val1的点,当前的val1有非缺失case+填充case组成

5.这样填充的方式存在填充case过拟合或者额外产生异常点的风险,所以需要做“新点检测”,存在两个逻辑:

5.1假设存在新填充点x,x附近最近的3-5点均为新填充点,及该点为危险点

5.2假设存在新填出点x,x距离最近的非缺失case距离大于预先设置的阀值(一般为离群处理后,所有非缺失case到缺失case距离的平均),及该点为危险点

6.危险点可以重新进行1-5,也可以剔除,视情况而定

在预处理后均衡样本上填充,基于租车行业偷车用户的年龄段填充,而后判断某出行平台用户是否存在偷车可能,实际上做下来的ROC效果对比如下图(数据有所隐逸,不代表官方数据):

相关文章

  • 应用:数据预处理-缺失值填充

    个人不建议填充缺失值,建议设置哑变量或者剔除该变量,填充成本较高 常见填充缺失值的方法: 1.均值、众数填充,填充...

  • 5.data_preprocessing_and_feature

    1.数据预处理与特征工程 1.1处理缺失值 1.1.1 直接删除缺失值多的样本和特征 1.1.2 计算缺失值与填充...

  • 数据分析相关知识整理

    数据预处理 缺失值处理 直接舍弃整条记录 手动填充修正 使用均值等不影响整体分布的数值填充 利用余下完整的数据预测...

  • Python数据预处理填充缺失值

    1.分析df['taixin'] #用describe函数对数据快速统计汇总df['taixin'].descri...

  • Python数据预处理填充缺失值

    1.数据统计 a.用describe函数对数据快速统计汇总 分析df['taixin'] 我们希望每一个数据都是f...

  • 空气质量指数数据分析可视化

    目录 1 数据描述 2 数据预处理 应用日期计算函数 应用匹配查找函数 逻辑判断函数 Python缺失值处理 3 ...

  • 121、处理缺失数据

    处理缺失数据 滤除缺失数据 填充缺失数据 如果全为NA值则插值方法不起作用。 源码:

  • 数据处理

    1、缺失值填充 2、sklearn预处理包:https://blog.csdn.net/weixin_408072...

  • Pandas-其他

    多个DataFrame操作 合并 处理数据 填充缺失值 使用一个全局常量填充缺失值:将缺失值用同一个常数(如Unk...

  • 机器学习 - 特征工程

    数据处理 缺失值处理行数据缺失过多,用户区分度就会降低,列数据缺失过多会导致建模存在偏差fillna:填充缺失值;...

网友评论

    本文标题:应用:数据预处理-缺失值填充

    本文链接:https://www.haomeiwen.com/subject/scytcxtx.html