美文网首页
大师兄的数据分析学习笔记(七):探索性数据分析(六)

大师兄的数据分析学习笔记(七):探索性数据分析(六)

作者: superkmi | 来源:发表于2022-05-04 16:53 被阅读0次

    大师兄的数据分析学习笔记(六):探索性数据分析(五)
    大师兄的数据分析学习笔记(八):探索性数据分析(七)

    五、复合分析的实现

    1. 交叉分析
    • 假设有一张数据表结构如下,点击下载数据
    - Age Education EducationField Gender HourlyRate JobInvolvement JobLevel JobSatisfaction
    1 41 2 Life Sciences Female 94 3 2 4
    2 49 1 Life Sciences Male 61 2 2 2
    3 37 2 Other Male 92 2 1 3
    4 33 4 Life Sciences Female 56 3 1 3
    5 27 1 Medical Male 40 3 1 2
    6 32 2 Life Sciences Male 79 3 1 4
    7 ... ... ... ... ... ... ... ...
    • 最直观的两个切入点是从列的角度分析从行的角度分析
    • 从列的角度分析:分析每个属性的特点并进行归纳和总结。
    • 从行的角度分析:从案例的角度进行分析,当数据有标注时,以标注为关注点,案例越多,越接近数据整体的质量。
    • 但是如果只是从列的角度分析从行的角度分析,则忽略了数据间和属性间的关联性,可能有信息失真。
    • 交叉分析就是一种分析属性和属性间的关系的方法,得到更多的能反映数据内涵的信息。
    • 交叉分析的含义比较广,涉及到的方法比较多,比如:
    • 任意取两列,使用假设检验的方式判断他们之间是否有联系。
    • 也可以以一个或多个属性为行,另一个或多个属性为列,做成透视表,用来更直观地分析两个属性或几个属性之间的关系。
    1.1 假设检验方式
    • 假设我们关注上面一段数据的HourlyRate(小时费率),希望分析不同EducationField之间HourlyRate是否有明显的差异,则可以使用独立T检验方法:
    >>>import os
    >>>import scipy.stats as ss
    >>>import numpy as np
    >>>import pandas as pd
    >>>import matplotlib.pyplot as plt
    >>>import seaborn as sns
    
    >>>df = pd.read_csv(os.path.join(".","data","WA_Fn-UseC_-HR-Employee-Attrition.csv"))
    >>>dp_indices = df.groupby("EducationField").indices
    >>>dp_keys = list(dp_indices.keys())
    >>>n = len(dp_keys)
    >>>dp_t_mat = np.zeros([n,n])
    
    >>>for i in range(n):
    >>>    for j in range(n):
    >>>        p_value = >>>ss.ttest_ind(df[df.EducationField==dp_keys[i]].HourlyRate.values,df[df.EducationField==dp_keys[j]].HourlyRate.values)[1]
    >>>        dp_t_mat[i][j] = p_value
    
    >>>sns.heatmap(dp_t_mat,xticklabels=dp_keys,yticklabels=dp_keys)
    >>>plt.show()
    
    • 上图中颜色越深,也就是p值越接近0,以为这两个值越没有关系,反之则认为他们之间越没有差别。
    1.2 透视表方式
    • 基于上面的列子,假设我们希望了解不同EducationField和不同的Gender在HourlyRate上的表现:
    >>>import os
    >>>import numpy as np
    >>>import pandas as pd
    >>>import matplotlib.pyplot as plt
    >>>import seaborn as sns
    
    >>>df = pd.read_csv(os.path.join(".","data","WA_Fn-UseC_-HR-Employee-Attrition.csv"))
    >>>piv_tb = pd.pivot_table(df,values="HourlyRate",index=["EducationField"],columns=["Gender"],aggfunc=np.mean)
    >>>sns.heatmap(piv_tb)
    >>>plt.show()
    
    • 颜色越深的群体HourlyRate越低,所以我们知道在案例公司中,男性员工的HourlyRate是更高的。
    2. 分组分析
    • 分组分析有两种不同的含义:
    1. 将数据进行分组后再进行分析比较;
    2. 根据数据的特征将数据分组,使组内成员尽可能靠拢,组间成员尽可能远离。
    • 如果指令了每一条数据的分组,当未知分组的数据出现的时候,更精确的判断它属于哪个分组的过程叫做分类
    • 如果不知道分组,仅让数据尽可能物以类聚的过程交过聚类
    • 分类聚类是机器学习和数据建模的主要内容。
    2.1 数据分组分析
    • 分组分析一般要结合其他分析方法进行配合使用,所以更像是一种辅助手段。
    • 分组分析中最常用的手段是钻取钻取是改变维的层次,变换分析的粒度。
    • 根据钻取方向的不同,可以分为向上钻取向下钻取
    • 向下钻取是展开数据,查看数据细节的过程。
    • 向上钻取是汇总分组数据的过程。
    • 离散属性的分组是比较容易的,而连续属性的分组在分组前要进行离散化
    • 在将连续属性离散化之前,需要先看下数据分布是不是有明显的的可以区分的标志:
    • 比如将数据从小到大排列后,有没有明显的分隔或拐点,如果有则可以直接使用。
    • 如果这个分隔是两个数据之间的差,可以称为一阶差分
    • 如果是拐点,则可以称为二阶差分
    • 由于连续属性的分组要尽可能满足相同的分组比较聚拢,不同的分组尽量离散,所以也可以采用聚类的方式区分:
    • 比如可以用k_means方法进行指定分组数目的连续属性分组。
    • 如果考虑标注,也可以结合不纯度(Gini)的检验指标基尼系数来进行连续数据的离散化分组。
    • 基尼系数定义:Gini(D) = 1 - \sum(\frac{{C_k}^2}{D})^2
    • D 代表标注,比如上面案例中的HourlyRate。
    • C 代表要比较和对比的属性,比如上面案例中的EducationField。
    >>>import os
    >>>import pandas as pd
    >>>import matplotlib.pyplot as plt
    >>>import seaborn as sns
    
    >>>df = pd.read_csv(os.path.join(".","data","WA_Fn-UseC_-HR-Employee-Attrition.csv"))
    >>>sns.barplot(x="HourlyRate",y="Gender",hue="EducationField",data=df)
    >>>plt.show()
    
    • 从上图中,我们可以看出很多结论,比如女性不同的EducationField的HourlyRate差距是比较大的,而男性则相对比较平衡。
    >>>import os
    >>>import pandas as pd
    >>>import matplotlib.pyplot as plt
    >>>import seaborn as sns
    
    >>>df = pd.read_csv(os.path.join(".","data","WA_Fn-UseC_-HR-Employee-Attrition.csv"))
    >>>hr = df.HourlyRate
    
    >>>sns.barplot(list(range(len(hr))),hr.sort_values())
    >>>plt.show()
    
    • 也可以通过观察数据进行分组。

    相关文章

      网友评论

          本文标题:大师兄的数据分析学习笔记(七):探索性数据分析(六)

          本文链接:https://www.haomeiwen.com/subject/yagsyrtx.html