数据挖掘中的预处理

数据挖掘中的预处理

作者: LucasX | 来源:发表于2017-04-30 15:34 被阅读20次

【数据清洗】
Part 1：缺失值处理

忽略元组
人工填写缺失值
使用一个全局常量填充缺失值：例如将缺失值用“Unknown”表示
使用属性的中心度量（mean or median）：对于对称数据分布使用mean，秦些数据分布使用median。
使用与给定元组属同一类的所有样本mean或median：例如将顾客按credit_risk分类，则用具有相同信用风险的顾客平均收入替换income中的缺失值。若给定数据分布是倾斜的，则median是更好的选择。
使用最可能的值填充缺失值：可以使用regression、Bayes形式化方法的基于推理的工具或者decision tree分类。

Part 2：噪声数据的处理
<definition>噪声（noise）：是被测量的变量随机误差或方差。
数据光滑技术：

分箱（binning）：通过考查数据的近邻来光滑有序数据集。常见的：用箱均值光滑；用箱中位数光滑；用箱边界光滑。
回归（regression）：用一个函数拟合数据来光滑数据。
离群点分析（outlier analysis）：通过如聚类来检测离群点。

【数据集成】
Part 1：冗余和相关分析：
对于标称数据，我们使用卡方检验发现。对于数值属性，我们使用相关系数、协方差发现。

相关文章

网友评论

本文标题：数据挖掘中的预处理

本文链接：https://www.haomeiwen.com/subject/dkxiwttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|数据挖掘中的预处理|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！