信息量等于不确定性的多少。

变量不确定性越大,熵越大。

条件熵

信息的作用在于消除不确定性,自然语言处理大量问题就是寻找相关的信息。
互信息:
互信息的概念作为两个随机事件“相关性”的量化度量。
互信息的取值在 0 和 min(H(X),H(Y)) 之间的函数,当 X 和 Y 完全相关时,它的取值为1,当二者完全无关时,它的取值为 0.


相对熵
相对熵也用来衡量相关性,但和变量的互信息不同,它用来衡量取值为正数的函数的相似性。

总结:
- 信息熵
- 条件熵
- 相对熵
- 复杂度:直接衡量模型的好坏,在给定上下文的条件下,句子中每个位置平均可以选择的单词数量。一个模型的复杂度越小,每个位置的词就越确定。模型越好。
网友评论