信息量等于不确定性的多少。
![](https://img.haomeiwen.com/i13140540/b294ca5abcdde5ec.png)
变量不确定性越大,熵越大。
![](https://img.haomeiwen.com/i13140540/b72e19f00aed1c00.png)
条件熵
![](https://img.haomeiwen.com/i13140540/50f58f74766c8c22.png)
信息的作用在于消除不确定性,自然语言处理大量问题就是寻找相关的信息。
互信息:
互信息的概念作为两个随机事件“相关性”的量化度量。
互信息的取值在 0 和 min(H(X),H(Y)) 之间的函数,当 X 和 Y 完全相关时,它的取值为1,当二者完全无关时,它的取值为 0.
![](https://img.haomeiwen.com/i13140540/0afa2d483f5bb77a.png)
![](https://img.haomeiwen.com/i13140540/af65fbcc3f32f92f.png)
相对熵
相对熵也用来衡量相关性,但和变量的互信息不同,它用来衡量取值为正数的函数的相似性。
![](https://img.haomeiwen.com/i13140540/663c443c0ab13ff1.png)
总结:
- 信息熵
- 条件熵
- 相对熵
- 复杂度:直接衡量模型的好坏,在给定上下文的条件下,句子中每个位置平均可以选择的单词数量。一个模型的复杂度越小,每个位置的词就越确定。模型越好。
网友评论