1.目的
数据探索是为了提前发现数据中包含的一些简单规律或特征;
数据清洗是为了留下可靠数据,修正不可靠数据,去除脏数据的干扰。
2.数据探索的核心
①数据质量分析;
②数据特征分析(即对数据的分布、对比、周期性、相关性、常见统计量等进行分析)
3.数据清洗步骤
(1)缺失值处理(通过describe与len直接发现、通过0数据发现)
①一般遇到缺失值,处理方式有:删除、插补、不处理。
②插补也方式有:均值插补、中位数插补、众数插补、固定值插补、最近数据插补、回归插补、拉格朗日插值、牛顿插值法、分段插值等。
(2)异常值处理(通过散点图发现)
遇到异常值,一般处理方式为视为缺失值、删除、修补(平均数、中位数等)、不处理。
4.数据清洗实例
![](https://img.haomeiwen.com/i1969457/ab4d1452184bf534.png)
![](https://img.haomeiwen.com/i1969457/aef9b4919dbbea8d.png)
![](https://img.haomeiwen.com/i1969457/b2b37ff868afd269.png)
5.分布分析(直方图)
![](https://img.haomeiwen.com/i1969457/83c6282b0949b39d.png)
![](https://img.haomeiwen.com/i1969457/faf5b1cbb45a7772.png)
网友评论