美文网首页机器学习爱好者
Python 相关分析与实现

Python 相关分析与实现

作者: Jana_LU | 来源:发表于2019-08-23 14:22 被阅读0次

    相关分析最常用的方法就是用相关系数直接衡量连续值的相关性,而离散属性的相关性是用熵增益转换成相关性的形式来衡量。

    一、分析连续值的相关性:

    Pearson相关系数及Spearman相关系数如下:

    相关系数计算公式 代码实现 蓝色区域表示具有明显相关性,橙色区域表示有明显的负相关性

    二、分析离散值的相关性:

    熵的相关公式

    说明:

    1.熵是衡量不确定的值,值越接近于0,说明不确定性越小;数据的类别越多熵越大。

    2.互信息(熵增益):缺点:对分类数目多的特征有不正确的偏向,也就是说不具有归一化的特点,它的不确定性是上不封顶的,所以对于我们相关性的界定是不方便的,为了解决这个问题,有了熵增益率。

    3.熵增益率:是不对称的,即X对Y的增益率与Y对X的增益率是不等的,所以要进行转换,转换成相关性。

    4.相关性:解决了X和Y的对称性。

    以下为举例说明:

    分析X与Y相关性

    代码实现如下:

    代码实现 代码实现 输出结果

    相关文章

      网友评论

        本文标题:Python 相关分析与实现

        本文链接:https://www.haomeiwen.com/subject/qtuzsctx.html