美文网首页
「数据预处理」03数据探索与数据清洗

「数据预处理」03数据探索与数据清洗

作者: 林拂晓 | 来源:发表于2020-01-23 20:40 被阅读0次

1.目的

数据探索是为了提前发现数据中包含的一些简单规律或特征;

数据清洗是为了留下可靠数据,修正不可靠数据,去除脏数据的干扰。

2.数据探索的核心

①数据质量分析;

②数据特征分析(即对数据的分布、对比、周期性、相关性、常见统计量等进行分析)

3.数据清洗步骤

(1)缺失值处理(通过describe与len直接发现、通过0数据发现)

①一般遇到缺失值,处理方式有:删除、插补、不处理。

②插补也方式有:均值插补、中位数插补、众数插补、固定值插补、最近数据插补、回归插补、拉格朗日插值、牛顿插值法、分段插值等。

(2)异常值处理(通过散点图发现)

遇到异常值,一般处理方式为视为缺失值、删除、修补(平均数、中位数等)、不处理。

4.数据清洗实例

第一步:数据导入 第二步:缺失值处理 第三步:异常值处理

5.分布分析(直方图)

分布分析 直方图

相关文章

网友评论

      本文标题:「数据预处理」03数据探索与数据清洗

      本文链接:https://www.haomeiwen.com/subject/uvgnzctx.html