相关分析最常用的方法就是用相关系数直接衡量连续值的相关性,而离散属性的相关性是用熵增益转换成相关性的形式来衡量。
一、分析连续值的相关性:
Pearson相关系数及Spearman相关系数如下:
相关系数计算公式 代码实现 蓝色区域表示具有明显相关性,橙色区域表示有明显的负相关性二、分析离散值的相关性:
熵的相关公式说明:
1.熵是衡量不确定的值,值越接近于0,说明不确定性越小;数据的类别越多熵越大。
2.互信息(熵增益):缺点:对分类数目多的特征有不正确的偏向,也就是说不具有归一化的特点,它的不确定性是上不封顶的,所以对于我们相关性的界定是不方便的,为了解决这个问题,有了熵增益率。
3.熵增益率:是不对称的,即X对Y的增益率与Y对X的增益率是不等的,所以要进行转换,转换成相关性。
4.相关性:解决了X和Y的对称性。
以下为举例说明:
分析X与Y相关性代码实现如下:
代码实现 代码实现 输出结果
网友评论