分类算法处理缺失值

分类算法处理缺失值

作者: Phoebe_Liu | 来源:发表于2018-11-01 10:09 被阅读0次

分类算法处理缺失值
数据挖掘面试题
数据预处理中缺失值的处理
python实现随机森林算法
非均衡数据处理--如何评价？
Series第五讲缺失值处理
Pandas_3 处理缺失值、数据透视表以及apply的用法
决策树优化
总结
机器学习(1)

整体而言，树模型+bayes对于缺失值都不太敏感；涉及到度量问题的模型（SVM+KNN）就相对敏感。

决策树

其实缺失值问题可以从三个方面来考虑

在选择分裂属性的时候，训练样本存在缺失值，如何处理？假如你使用ID3算法，那么选择分类属性时，就要计算所有属性的熵增(信息增益，Gain)。假设10个样本，属性是a,b,c。在计算a属性熵时发现，第10个样本的a属性缺失，那么就把第10个样本去掉，前9个样本组成新的样本集，在新样本集上按正常方法计算a属性的熵增。然后结果乘0.9（新样本占raw样本的比例），就是a属性最终的熵。
分裂属性选择完成，对训练样本分类，发现属性缺失怎么办？比如该节点是根据a属性划分，但是待分类样本a属性缺失，怎么办呢？假设a属性离散，有1,2两种取值，那么就把该样本分配到两个子节点中去，但是权重由1变为相应离散值个数占样本的比例。然后计算错误率的时候，注意，不是每个样本都是权重为1，存在分数。
例如：a=1的占30%，a=2的占70%.则这里可以将原来的一个样本，划分0.3个向左分支，划分0.7个向右分支。
训练完成，给测试集样本分类，有缺失值怎么办？这时候，就不能按比例分配了，因为你必须给该样本一个确定的label，而不是薛定谔的label。这时候根据投票来确定，或者填充缺失值。
简单粗暴快速的方法：利用中位数或者出现次数最多的树，替代

SVM

相关文章

分类算法处理缺失值
整体而言，树模型+bayes对于缺失值都不太敏感；涉及到度量问题的模型（SVM+KNN）就相对敏感。决策树其实...
数据挖掘面试题
1、k-Means算法的原理和过程2、随即森林决策树3、二分类算法衡量标准4、对于缺失值的处理5、监督算法和非监...
数据预处理中缺失值的处理
在做数据分类时，训练数据中总会存在一些缺失值，那么怎么处理缺失值有哪些方法呢？最简单的方法就是删除缺失值所在的数...
python实现随机森林算法
用决策树实现一个根据用户的信息判断用户是否逾期的分类算法代码实现。首先，我们对数据进行预处理，填充缺失值，数据集...
非均衡数据处理--如何评价？
在分类问题中，常见的数据预处理包括：数据缺失(Missing)，奇值处理(Outlier)，数据变换(T...
Series第五讲缺失值处理
Series第五讲缺失值处理本节课将讲解如何处理pandas里的缺失值缺失值处理 Series.fillna...
Pandas_3 处理缺失值、数据透视表以及apply的用法
1.处理缺失值 Pandas使用NaN（Not a Number）来表示缺失值 1.1判断是否存在缺失值以及缺失值...
决策树优化
决策树的正则化叶子的数量作为惩罚因子，叶子越多，算法复杂度越大分类特征的处理特征缺失的处理
总结
决策树算法的有点简单, 直观, 可解释性强, 建树容易不需要预处理, 归一化, 以及处理缺失值离散值, 连续...
机器学习(1)
一、数值型算法 1、归一化算法： 2、标准化算法： 3、缺失值处理二、其他1、字典数据抽取： 2、对文本进行特...

网友评论

本文标题：分类算法处理缺失值

本文链接：https://www.haomeiwen.com/subject/llptxqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|分类算法处理缺失值|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！