机器学习中的信息熵，交叉熵，相对熵（KL散度是什么），基尼不纯度

作者: 数据小新手 | 来源:发表于2018-03-30 11:19 被阅读0次

KL散度其实就是相对熵
交叉熵与KL散度
面试
机器学习中的信息熵，交叉熵，相对熵（KL散度是什么），基尼不纯度
信息熵相关知识总结
机器学习相关的数学知识
机器学习-面试总结
决策树算法梳理
信息熵/相对熵/交叉熵
机器学习中的熵、条件熵、相对熵(KL散度)和交叉熵

其实目前随着算法越来越牛，调用的方式越来越友好，包括 sklearn, xgboost, catboost似乎我们已经不需要知道算法是什么，直接用就好了，然而个人还是觉得，应该对机器学习的概念很了解，至少面试的时候会问的吧。

其实信息熵在机器学习的应用比较广泛，包括评价指标，树模型的分叉等，那信息熵，交叉熵，相对熵又分别是什么呢。

信息熵：熵最好理解为不确定性的量度而不是确定性的量度，因为越随机的信源的熵越大。这里的想法是，比较不可能发生的事情，当它发生了，会提供更多的信息。

信息熵计算公式

熵的计算：如果一枚硬币的两面完全相同，那个这个系列抛硬币事件的熵等于零，因为结果能被准确预测。而如果一枚硬币正反两面的概率都是0.5。则这时候的熵会比两面完全相同的熵较大，因为结果较难预测。

相对熵：也称KL散度，信息增益，信息散度，是对两个概率分布P和Q差别的非对称性的度量。相对熵值为非负数，由吉布斯不等式（吉布斯不等式）可知，当且仅当P=Q时DKL(P||Q)为零。

相对熵计算公式

交叉熵：其用来衡量在给定的真实分布下，使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小

交叉熵计算公式

互信息：两个随机变量的互信息（Mutual Information，简称MI）或转移信息（transinformation）是变量间相互依赖性的量度。不同于相关系数，互信息并不局限于实值随机变量，它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。表示两个变量X与Y是否有关系，以及关系的强弱。

$$I(X,Y)=\int_X \int_Y P(X,Y)\log\frac{P(X,Y)}{P(X)P(Y)}$$

参考文献：

1.https://blog.csdn.net/lk7688535/article/details/52529610

2.https://zh.wikipedia.org/wiki/%E4%BA%A4%E5%8F%89%E7%86%B5

3.https://zh.wikipedia.org/wiki/%E4%BA%92%E4%BF%A1%E6%81%AF