一、什么是探索性数据分析
探索性数据分析是指:对已经有的数据在尽量少的先验假定下进行数据探索,可以通过绘图、制表、数学拟合、计算特征量等手段探索数据的结构和规律。特别对于现在所面临的大数据时代,各种杂乱的“脏数据”,通常使我们不知从何下手去了解手上的数据集,这个时候探索性分析就很有效了。
二、数据的类型一般分为两类:离散型和连续型
离散型:离散型数据相当于分类数据,如班上学生的人数、扔骰子的结果、性别、种族等。
连续型:也即是在值域里面是连续取值,这种变量一般是有序的,如身高(可以是在人类的身高范围内的任意值)、叶子的长度、狗的体重等。
三、探索性分析的一般步骤:
1、让你最大程度得到数据的直觉
2、发掘潜在的结构
3、提取重要的变量
4、删除异常值
5、检验潜在的假设
6、建立初步的模型
7、决定最优的因子设置
四、探索性数据分析常用的一些常见问题:
1、数据的典型值是多少(均值、中位数)?
2、典型值的不确定性是什么?
3、一组数据的良好分布拟合是什么?
4、数据的分位数是多少?
5、一个工程上的修改是否有作用?
6、一个因子是否有影响?
7、最重要的因素是什么?
8、来自不同实验室的测量结果是否相等?
9、将响应变量与一组因子变量相关联的最佳函数是什么?
10、什么是最好的因子设置?
11、我们可以将时间相关数据中的信号与噪声分离吗?
12、我们可以从多变量数据中提取任何结构吗?
13、数据是否有离群值?
五、案例代码图解
参考:
https://blog.csdn.net/fjssharpsword/article/details/79152012
https://blog.csdn.net/a358463121/article/details/55003356
写在学习后的话:第一次接触数据挖掘的知识,第一次写网络文章,排版有点乱(尴尬),希望自己在这次datawhale组织的数据挖掘课程中能学到知识,结交优秀的朋友。
网友评论