相关分析最常用的方法就是用相关系数直接衡量连续值的相关性,而离散属性的相关性是用熵增益转换成相关性的形式来衡量。
一、分析连续值的相关性:
Pearson相关系数及Spearman相关系数如下:



二、分析离散值的相关性:

说明:
1.熵是衡量不确定的值,值越接近于0,说明不确定性越小;数据的类别越多熵越大。
2.互信息(熵增益):缺点:对分类数目多的特征有不正确的偏向,也就是说不具有归一化的特点,它的不确定性是上不封顶的,所以对于我们相关性的界定是不方便的,为了解决这个问题,有了熵增益率。
3.熵增益率:是不对称的,即X对Y的增益率与Y对X的增益率是不等的,所以要进行转换,转换成相关性。
4.相关性:解决了X和Y的对称性。
以下为举例说明:

代码实现如下:



网友评论