信息熵

作者: geekAppke | 来源:发表于2018-12-29 21:20 被阅读9次

    机器学习是个熵降的过程
    一个具体事件的信息量应该是随着其发生概率而递减的,且不能为负。

    信息量

    如果我们有俩个不相关的事件x和y,那么我们观察到的俩个事件
    同时发生时获得的信息应该等于观察到的事件各自发生时获得的 信息之和
    即:h(x,y) = h(x) + h(y)
    

    熵就是信息量的期望

    随机变量的不确定度的度量。
    方法一:符号种类数量越小,信息熵越小
    方法二:各符号出现的概率越不均等,信息熵越小


    熵越大,数据的不确定性越高(粒子非常活跃)
    熵越小,数据的不确定性越低(粒子趋向禁止)

    条件熵:试卷泄题条件下,能通过的概率是多少?

    条件熵

    给定一个随机变量能消除另一个随机变量的不确定性

    互信息
    X、Y可以互换,H(X) - H(X|Y) = H(Y) - H(Y|X)

    交叉熵

    • 唯心主义vs唯物主义者
    • 自己的价值观,学习真实的世界(自己心里的概率,去评估世界上真实的概率)
    • 自己的估计真实世界相比,多大的信息量
    • 如何通俗的解释交叉熵与相对熵?
    交叉熵
    人的估计,比真实世界更加紊乱

    在图像分类的过程中,如猫狗分类,分类交叉熵定义成:
    H(p, q) = p_cat * log(q_cat) - p_dog * log(q_dog)

    一张图片上画了一只猫:
    p_cat = 1
    p_dog = 0
    
    如果我的预测期:
    q_cat = 0.2
    q_dog = 0.8
    
    H(p, q) = -1 * log(0.2) - 0 * log(0.8)
    = -1 *log(0.2) = -log(0.2) = log(5)
    
    对于分类模型的交叉熵 = -log(q_label) -->  分类的Loss函数
    

    相对熵

    理想与现实中的差距

    对于一张图片上画了一只猫的真实的熵本身是多少? --- 0
    
    H(p, q) - H(p) = D(p||q)
    
    自然存在的熵=0
    

    相关文章

      网友评论

        本文标题:信息熵

        本文链接:https://www.haomeiwen.com/subject/ygtmlqtx.html