大师兄的数据分析学习笔记(六):探索性数据分析(五)
大师兄的数据分析学习笔记(八):探索性数据分析(七)
五、复合分析的实现
1. 交叉分析
- 假设有一张数据表结构如下,点击下载数据:
- | Age | Education | EducationField | Gender | HourlyRate | JobInvolvement | JobLevel | JobSatisfaction |
---|---|---|---|---|---|---|---|---|
1 | 41 | 2 | Life Sciences | Female | 94 | 3 | 2 | 4 |
2 | 49 | 1 | Life Sciences | Male | 61 | 2 | 2 | 2 |
3 | 37 | 2 | Other | Male | 92 | 2 | 1 | 3 |
4 | 33 | 4 | Life Sciences | Female | 56 | 3 | 1 | 3 |
5 | 27 | 1 | Medical | Male | 40 | 3 | 1 | 2 |
6 | 32 | 2 | Life Sciences | Male | 79 | 3 | 1 | 4 |
7 | ... | ... | ... | ... | ... | ... | ... | ... |
- 最直观的两个切入点是从列的角度分析和从行的角度分析:
- 从列的角度分析:分析每个属性的特点并进行归纳和总结。
- 从行的角度分析:从案例的角度进行分析,当数据有标注时,以标注为关注点,案例越多,越接近数据整体的质量。
- 但是如果只是从列的角度分析和从行的角度分析,则忽略了数据间和属性间的关联性,可能有信息失真。
- 交叉分析就是一种分析属性和属性间的关系的方法,得到更多的能反映数据内涵的信息。
- 交叉分析的含义比较广,涉及到的方法比较多,比如:
- 任意取两列,使用假设检验的方式判断他们之间是否有联系。
- 也可以以一个或多个属性为行,另一个或多个属性为列,做成透视表,用来更直观地分析两个属性或几个属性之间的关系。
1.1 假设检验方式
- 假设我们关注上面一段数据的HourlyRate(小时费率),希望分析不同EducationField之间HourlyRate是否有明显的差异,则可以使用独立T检验方法:
>>>import os
>>>import scipy.stats as ss
>>>import numpy as np
>>>import pandas as pd
>>>import matplotlib.pyplot as plt
>>>import seaborn as sns
>>>df = pd.read_csv(os.path.join(".","data","WA_Fn-UseC_-HR-Employee-Attrition.csv"))
>>>dp_indices = df.groupby("EducationField").indices
>>>dp_keys = list(dp_indices.keys())
>>>n = len(dp_keys)
>>>dp_t_mat = np.zeros([n,n])
>>>for i in range(n):
>>> for j in range(n):
>>> p_value = >>>ss.ttest_ind(df[df.EducationField==dp_keys[i]].HourlyRate.values,df[df.EducationField==dp_keys[j]].HourlyRate.values)[1]
>>> dp_t_mat[i][j] = p_value
>>>sns.heatmap(dp_t_mat,xticklabels=dp_keys,yticklabels=dp_keys)
>>>plt.show()
- 上图中颜色越深,也就是p值越接近0,以为这两个值越没有关系,反之则认为他们之间越没有差别。
1.2 透视表方式
- 基于上面的列子,假设我们希望了解不同EducationField和不同的Gender在HourlyRate上的表现:
>>>import os
>>>import numpy as np
>>>import pandas as pd
>>>import matplotlib.pyplot as plt
>>>import seaborn as sns
>>>df = pd.read_csv(os.path.join(".","data","WA_Fn-UseC_-HR-Employee-Attrition.csv"))
>>>piv_tb = pd.pivot_table(df,values="HourlyRate",index=["EducationField"],columns=["Gender"],aggfunc=np.mean)
>>>sns.heatmap(piv_tb)
>>>plt.show()
- 颜色越深的群体HourlyRate越低,所以我们知道在案例公司中,男性员工的HourlyRate是更高的。
2. 分组分析
- 分组分析有两种不同的含义:
- 将数据进行分组后再进行分析比较;
- 根据数据的特征将数据分组,使组内成员尽可能靠拢,组间成员尽可能远离。
- 如果指令了每一条数据的分组,当未知分组的数据出现的时候,更精确的判断它属于哪个分组的过程叫做分类。
- 如果不知道分组,仅让数据尽可能物以类聚的过程交过聚类。
- 分类和聚类是机器学习和数据建模的主要内容。
2.1 数据分组分析
- 分组分析一般要结合其他分析方法进行配合使用,所以更像是一种辅助手段。
- 分组分析中最常用的手段是钻取,钻取是改变维的层次,变换分析的粒度。
- 根据钻取方向的不同,可以分为向上钻取和向下钻取:
- 向下钻取是展开数据,查看数据细节的过程。
- 向上钻取是汇总分组数据的过程。
- 离散属性的分组是比较容易的,而连续属性的分组在分组前要进行离散化。
- 在将连续属性离散化之前,需要先看下数据分布是不是有明显的的可以区分的标志:
- 比如将数据从小到大排列后,有没有明显的分隔或拐点,如果有则可以直接使用。
- 如果这个分隔是两个数据之间的差,可以称为一阶差分。
- 如果是拐点,则可以称为二阶差分。
- 由于连续属性的分组要尽可能满足相同的分组比较聚拢,不同的分组尽量离散,所以也可以采用聚类的方式区分:
- 比如可以用k_means方法进行指定分组数目的连续属性分组。
- 如果考虑标注,也可以结合不纯度(Gini)的检验指标基尼系数来进行连续数据的离散化分组。
- 基尼系数定义:
- D 代表标注,比如上面案例中的HourlyRate。
- C 代表要比较和对比的属性,比如上面案例中的EducationField。
>>>import os
>>>import pandas as pd
>>>import matplotlib.pyplot as plt
>>>import seaborn as sns
>>>df = pd.read_csv(os.path.join(".","data","WA_Fn-UseC_-HR-Employee-Attrition.csv"))
>>>sns.barplot(x="HourlyRate",y="Gender",hue="EducationField",data=df)
>>>plt.show()
- 从上图中,我们可以看出很多结论,比如女性不同的EducationField的HourlyRate差距是比较大的,而男性则相对比较平衡。
>>>import os
>>>import pandas as pd
>>>import matplotlib.pyplot as plt
>>>import seaborn as sns
>>>df = pd.read_csv(os.path.join(".","data","WA_Fn-UseC_-HR-Employee-Attrition.csv"))
>>>hr = df.HourlyRate
>>>sns.barplot(list(range(len(hr))),hr.sort_values())
>>>plt.show()
- 也可以通过观察数据进行分组。
网友评论