美文网首页分析101
贝叶斯方法与Ridge回归的联系

贝叶斯方法与Ridge回归的联系

作者: Boye0212 | 来源:发表于2020-12-02 23:32 被阅读0次

    贝叶斯方法与Ridge回归有什么联系?废话少说,我们直接来看。

    为了方便说明问题,考虑一维的自变量,将一系列自变量排成向量的形式:\mathbf{x}=(x_1,\cdots,x_N)^T,对应的目标函数为\mathbf{t}=(t_1,\cdots,t_N)^T

    我们假设样本中每个t都独立,且服从正态分布,分布的均值为y(x,\mathbf{w})=\sum_{j=0}^{M} w_j x^j(也可以不指定形式,只要是关于x\mathbf{w}的函数即可),方差的倒数为\beta,则似然函数为

    p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)=\prod_{n=1}^{N} \mathcal{N}(t_n|y(x,\mathbf{w}),\beta^{-1})

    将似然函数取对数,再把正态分布的具体形式写出来,有

    \ln{p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)}=-\dfrac{\beta}{2}\sum_{n=1}^{N}[y(x_n,\mathbf{w})-t_n]^2+\dfrac{N}{2}\ln{\beta}-\dfrac{N}{2}\ln(2\pi)

    最大化似然函数,等价于最小化它的负对数,也等价于最小化\sum_{n=1}^{N}[y(x_n,\mathbf{w})-t_n]^2。我们发现,其实这就是用OLS解线性回归问题。换句话说,用OLS解线性回归,相当于在正态分布假设下,求解最大似然问题

    那么在贝叶斯方法下,又会有什么事情发生呢?由于贝叶斯方法需要一个参数的先验分布,在这里就假设参数\mathbf{w}的先验分布是一个由超参数\alpha控制的简单的正态分布,注意这里是多维的正态分布:

    \begin{aligned} p(\mathbf{w}|\alpha)&=\mathcal{N}(\mathbf{w}| \mathbf{0},\alpha^{-1}\mathbf{I})\\ &=(\dfrac{\alpha}{2\pi})^{\dfrac{M+1}{2}}\exp(-\dfrac{\alpha}{2}\mathbf{w}^T \mathbf{w}) \end{aligned}

    其中M+1\mathbf{w}的元素的总数。

    根据贝叶斯定理,有

    p(\mathbf{w}|\mathbf{x},\mathbf{t},\alpha,\beta)\propto p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)p(\mathbf{w}|\alpha)

    我们要最大化的就是\mathbf{w}的后验概率,这样的方法就是MAP(maximum posterior)。

    对上式右边取负对数,并舍去与\mathbf{w}无关的项后,变为:

    \dfrac{\beta}{2}\sum_{n=1}^{N}[y(x_n,\mathbf{w})-t_n]^2+\dfrac{\alpha}{2}\mathbf{w}^T\mathbf{w}

    由于对数可以把相乘的项分开,而我们加入的先验\mathcal{N}(\mathbf{w}| \mathbf{0},\alpha^{-1}\mathbf{I})在取对数之后与\mathbf{w}有关的项恰好就是参数平方和的形式,因此就变成了频率派机器学习中的惩罚项。

    也就是说,在原本的数据服从正态分布的假设中,再加入关于参数的零均值、同方差且无相关的多维正态分布的假设后,贝叶斯方法要最优化的东西,就是Ridge回归中要最优化的东西,取正则化参数\lambda=\dfrac{\alpha}{\beta},二者的结果是一致的。

    相关文章

      网友评论

        本文标题:贝叶斯方法与Ridge回归的联系

        本文链接:https://www.haomeiwen.com/subject/hicpwktx.html