美文网首页统计分析与数据挖掘
最大互信息系数(MIC)与minepy的使用

最大互信息系数(MIC)与minepy的使用

作者: 蜘蛛鱼 | 来源:发表于2021-03-17 17:14 被阅读0次

Minepy与MIC简介

minepy是基于最大互信息的非参数勘探(MINE,Maximal Information-based Nonparametric Exploration)的一个python库。

许多数据集包括成千上万个变量对,在我们不知道它们有哪些关系的情况下,如何有效地识别重要的关系呢?
最大互信息系数(MIC,Maximal Information Coefficient)与MINE专门针对快速挖掘多维度数据,可以衡量两个变量的相关性。

D. Reshef, Y. Reshef], H. Finucane, S. Grossman, G. McVean, P. Turnbaugh, E. Lander, [[M. Mitzenmacher, P. Sabeti]]. Detecting novel associations in large datasets. Science 334, 6062 (2011).

MIC计算分为三个步骤:

  1. 给定i、j,对XY构成的散点图进行i列j行网格化,并求出最大的互信息值
  2. 对最大的互信息值进行归一化
  3. 选择不同尺度下互信息的最大值作为MIC值

Minepy的Python API

在Linux中,minepy可以直接通过pip install下载。(Mac可以用brew install下载)。
官网中给出的例子如下:

import numpy as np
from minepy import MINE

def print_stats(mine):
    print "MIC", mine.mic()
    print "MAS", mine.mas()
    print "MEV", mine.mev()
    print "MCN (eps=0)", mine.mcn(0)
    print "MCN (eps=1-MIC)", mine.mcn_general()
    print "GMIC", mine.gmic()
    print "TIC", mine.tic()

x = np.linspace(0, 1, 1000)
y = np.sin(10 * np.pi * x) + x
mine = MINE(alpha=0.6, c=15, est="mic_approx")
mine.compute_score(x, y)

print "Without noise:"
print_stats(mine)
print

np.random.seed(0)
y +=np.random.uniform(-1, 1, x.shape[0]) # add some noise
mine.compute_score(x, y)

print "With noise:"
print_stats(mine)

其中,compute_score计算特征矩阵,mic指最大互信息系数。

参考:
http://www.exploredata.net/
https://minepy.readthedocs.io/en/latest/python.html

相关文章

  • 最大互信息系数(MIC)与minepy的使用

    Minepy与MIC简介 minepy是基于最大互信息的非参数勘探(MINE,Maximal Informatio...

  • 聚类算法模型评估

    ● 混淆矩阵● 均一性● 完整性● V-measure● 调整兰德系数(ARI)● 调整互信息(AMI)● 轮廓系...

  • 相关性度量方法

    基于相互独立性的互信息是衡量变量间非线性相关性的一种工具。虽然皮尔逊相 关系数和互信息被广泛的运用在度量变量间的相...

  • pyhanlp 共性分析与短语提取内容详解

    简介 HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是 文本分词进行共性分析。在作者...

  • 王者荣耀荣耀系数提高方法

    1、荣耀系数的影响因素:使用频率 2、玩家的荣耀系数上限为1,荣耀系数降低后,通过排位使用该英雄,也能使系数回到1...

  • 基于互信息和左右信息熵的短语提取

    1 互信息和信息熵的概念2 算法流程3 代码实现 1 互信息和信息熵的概念 1.1 互信息 互信息体现了两个变量之...

  • 最大信息系数详解

    1. 基本概念 假设有两个一维数组X和Y,抽样得到了n对样本值(各有n个观测值): 样本均值和标准差: 皮尔森(积...

  • 保险风险保额算法

    风险保额算法:代理人运营等级最大保额➖(年龄区间最大额度✖️风险保额系数)➕(其他累计产品额度✖️风险保额系数)=...

  • B18. Alarm Messages-5

    1033 Too many EF Coefficients (EF系数太多)。 所使用的EF系数的数量超过...

  • MIC

    http://blog.csdn.net/qtlyx/article/details/50780400

网友评论

    本文标题:最大互信息系数(MIC)与minepy的使用

    本文链接:https://www.haomeiwen.com/subject/cbfjcltx.html