点互信息和互信息 PMI

点互信息和互信息 PMI

作者: 大丸子是superman | 来源:发表于2019-04-01 15:28 被阅读0次

点互信息和互信息 PMI
PMI系数
基于互信息和左右信息熵的短语提取
熵之道
情感倾向PMI算法
吴军信息论笔记|如何利用互信息解决问题
新词发现
信息熵相关知识总结
互信息——事件相关性度量
《吴军信息论40讲》第十四讲

在数据挖掘或者信息检索的相关资料里，经常会用到PMI（Pointwise Mutual Information）这个指标来衡量两个事物之间的相关性。PMI的定义如下：

这个定义所体现的原理其实是相当直白的。在概率论中，我们知道，如果x跟y不相关，则 P(x,y) = P(x)P(y)。二者相关性越大，则 P(x,y) 就相比于 P(x)P(y) 越大。根据条件概率公式，你还可以写成

这也很好理解，在y出现的情况下x出现的条件概率 p(x|y) 除以x本身出现的概率 p(x) ，自然就表示x跟y的相关程度。

这里的log来自于信息论的理论，而且 log 1 = 0 ，也恰恰表明P(x,y) = P(x)P(y)，相关性为0，而且log是单调递增函数，所以 “P(x,y) 就相比于 P(x)P(y) 越大，x 和 y 相关性越大” 这一性质也得到保留。

通常我们可以用一个Co-occurrence Matrix来表示对一个语料库中两个单词出现在同一份文档的统计情况，例如

以计算PMI(information,data)为例则有（其中分母上的19是上表所有数值之和）：

其他中间结果如下表所示：

但是从上表中你可能会发现一个问题，那就是你有可能会去计算 log 0 = -inf，即得到一个负无穷。为此人们通常会计算一个PPMI（Positive PMI）来避免出现 -inf，即

参考：https://blog.csdn.net/baimafujinji/article/details/6509820

相关文章

点互信息和互信息 PMI
在数据挖掘或者信息检索的相关资料里，经常会用到PMI（Pointwise Mutual Information）这...
PMI系数
关于PMI（点互信息），可以看这篇博客：https://blog.csdn.net/luo123n/article...
基于互信息和左右信息熵的短语提取
1 互信息和信息熵的概念2 算法流程3 代码实现 1 互信息和信息熵的概念 1.1 互信息互信息体现了两个变量之...
熵之道
熵的定义如下：互信息 = H(D) - H(D|A) 信息增益 = 经验熵 - 经验条件熵；互信息和信息增益理...
情感倾向PMI算法
点互信息算法（PMI）基本思想：是统计两个词语在文本中同时出现的概率，如果概率越大，其相关性就越紧密，关联度越高...
吴军信息论笔记|如何利用互信息解决问题
1. 什么是互信息，互信息vs相关性的关系吴军老师讲的概念本身不难，信息之间是有相关性的，互信息是度量相关性的尺...
新词发现
1.基于互信息和左右信息熵的短语提取识别 2.反作弊基于左右信息熵和互信息的新词挖掘 3.基于spark的新词发现...
信息熵相关知识总结
前言学习决策树时会接触到一些信息熵,条件熵和信息增益的知识,此外还有互信息,相对熵,交叉熵和互信息,KL散度等等...
互信息——事件相关性度量
延续上一次对熵的理解，今天来看看互信息。先说概念：互信息（Mutual Information）也叫转移信息（tr...
《吴军信息论40讲》第十四讲
互信息就是判断信息相关程度大小的工具。

网友评论

本文标题：点互信息和互信息 PMI

本文链接：https://www.haomeiwen.com/subject/nsuvbqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|点互信息和互信息 PMI|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！