Jensen不等式(Jensen's inequality)是以丹麦数学家Johan Jensen命名的,它在概率论、机器学习、测度论、统计物理等领域都有相关应用。
在机器学习领域,我目前接触到的是用Jensen不等式用来证明KL散度大于等于0(以后写一篇文章总结一下)。
由于初学乍练,如有错误,欢迎指正。
Jensen不等式是和凸函数的定义是息息相关的。
首先介绍什么是凸函数(convec function)。
凸函数
凸函数是一个定义在某个向量空间的凸子集 C(区间)上的实值函数 f,如果在其定义域 C 上的任意两点 x_1,x_2 , 0 \le t \le 1 ,有
t f(x_{1})+(1-t)f(x_{2})\geq f\left(t x_{1}+(1-t)x_{2}\right) \quad\quad\quad (1)
也就是说凸函数任意两点的割线位于函数图形上方, 这也是Jensen不等式的两点形式。
Jensen不等式
若对于任意点集 \{x_i\},若 \lambda_i \geq 0 且 \sum_i \lambda_i = 1 ,使用数学归纳法,可以证明凸函数 f (x) 满足:
f(\sum_{i=1}^M \lambda_i x_i) \leq \sum_{i=1}^M \lambda_i f(x_i) \quad\quad\quad (2)
公式(2)被称为 Jensen 不等式,它是式(1)的泛化形式。
证明
当i=1或2时,由凸函数的定义成立
假设当i=M时,公式(2)成立
现在证明则i=M+1时,Jensen不等式也成立:
\begin{aligned} f(\sum_{i=1}^{M+1} \lambda_i x_i) = f(\lambda_{M+1} x_{M+1} + \sum_{i=1}^M \lambda_i x_i) \\ = f(\lambda_{M+1} x_{M+1} + (1-\lambda_{M+1})\sum_{i=1}^M \eta_i x_i)\end{aligned} \quad \quad \quad (3)
其中
\eta_i=\frac{\lambda_i}{1-\lambda_{M+1}}
由公式(1)的结论,公式(3)满足:
f(\sum_{i=1}^{M+1} \lambda_i x_i) \leq \lambda_{M+1}f(x_{M+1}) +(1-\lambda_{M+1})f(\sum_{i=1}^M \eta_i x_i))\quad \quad \quad (4)
注意到 \lambda_i 满足:
\sum_{i=1}^{M+1} \lambda_i=1
因此:
\sum_{i=1}^{M} \lambda_i = 1-\lambda_{M+1}
因此 \eta_i 也满足:
\sum_i^M \eta_i=\frac{\sum_i^M \lambda_i}{1-\lambda_{M+1}}=1 \quad \quad \quad (5)
由公式(2)和(5)得到:
\sum_{i=1}^M f(\eta_i x_i))\leq \sum_{i=1}^M \eta_i f(x_i))\quad \quad \quad (6)
由(4)和(6):
f(\sum_{i=1}^{M+1} \lambda_i x_i) \leq \lambda_{M+1}f(x_{M+1}) +(1-\lambda_{M+1})\sum_{i=1}^M \eta_i f(x_i))=\sum_{i=1}^{M+1} \lambda_i f(x_i)
因此i=M+1时,Jensen不等式也成立
综上,Jensen不等式成立
延伸
在概率论中,如果把 \lambda_i 看成取值为 {x_i} 的离散变量 x 的概率分布,那么公式(2)就可以写成
f(E[x]) \leq E[f(x)]
其中, E[·] 表示期望。
对于连续变量,Jensen不等式给出了积分的凸函数值和凸函数的积分值间的关系:
f(\int xp(x)dx) \leq \int f(x)p(x)dx
参考文献:
[1] PRML
网友评论