知识点理解:
信息量->熵->相对熵(KL散度)->交叉熵->分类的loss
- 信息量:I(x0)=−log(p(x0))
- 熵用来表示所有信息量的期望:
其中,0-1分布问题(二项分布的特例)简化为:
- 相对熵(KL散度):相对熵又称KL散度,如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x),我们可以使用 KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异。
- 交叉熵
等式的前一部分恰巧就是p的熵,等式的后一部分,就是交叉熵:
- 分类中的loss
(y为label,为预测值
标签 | 人 | 马 | 羊 |
---|---|---|---|
Label | 0 | 1 | 0 |
Pred | 0.3 | 0.6 | 0.1 |
那么
loss= −(0×log(0.3)+1×log(0.6)+0×log(0.1) = −log(0.6)
最大似然估计
- 概率:已知硬币的参数,就可以去推测抛硬币的各种情况的可能性,这称为概率
- 似然:对硬币的参数并不清楚,要通过抛硬币的情况去推测硬币的参数,这称为似然
PCA
方差:
样本协方差:
示例:
网友评论