美文网首页
sklearn学习笔记——Bayesian回归和基本知识

sklearn学习笔记——Bayesian回归和基本知识

作者: 龙鹰图腾223 | 来源:发表于2019-10-01 09:46 被阅读0次

    1、概率和统计【1】

    概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。

    概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。

    统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。

    一句话总结:概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。

    显然,对于最大似然估计,最大后验估计,贝叶斯估计来说,都属于统计的范畴。

    2、参数估计的方法【1】

    就是根据样本统计量的数值对总体参数进行估计的过程。根据参数估计的性质不同,可以分成两种类型:点估计和区间估计。

    点估计就是用样本统计量的某一具体数值直接推断未知的总体参数。例如,在进行有关小学生身高的研究中,随机抽取1000名小学生并计算出他们的平均身高为1.45米。如果直接用这个1.45米代表所有小学生的平均身高,那么这种估计方法就是点估计。

    而对总体参数进行点估计常用的方法有两种:矩估计与最大似然估计,其中最大似然估计就是我们实际中使用非常广泛的一种方法。按这两种方法对总体参数进行点估计,能够得到相对准确的结果。如用样本均值X估计总体均值,或者用样本标准差S估计总体标准差σ。

    但是,点估计有一个不足之处,即这种估计方法不能提供估计参数的估计误差大小。对于一个总体来说,它的总体参数是一个常数值,而它的样本统计量却是随机变量。当用随机变量去估计常数值时,误差是不可避免的,只用一个样本数值去估计总体参数是要冒很大风险的。因为这种误差风险的存在,并且风险的大小还未知,所以,点估计主要为许多定性研究提供一定的参考数据,或在对总体参数要求不精确时使用,而在需要用精确总体参数的数据进行决策时则很少使用。

    区间估计就是在推断总体参数时,还要根据统计量的抽样分布特征,估计出总体参数的一个区间,而不是一个数值,并同时给出总体参数落在这一区间的可能性大小,概率的保证。还是举小学生身高的例子,如果用区间估计的方法推断小学生身高,则会给出以下的表达:根据样本数据,估计小学生的平均身高在1.4~1.5米之间,置信程度为95%,这种估计就属于区间估计。

    3、最大似然估计、最大后验估计与贝叶斯估计

    最大似然估计(MLE),详细的了解可以参考资料【2】:

    抛10次硬币,发现7次硬币正面向上,最大似然估计认为正面向上的概率是0.7。是不是非常直接,非常简单粗暴?没错,就是这样,谁大像谁!

    说到这里为止,可能很多同学不以为然:你这不坑爹嘛?只要硬币一枚正常硬币,不存在作弊情况,正面朝上的概率必然为0.5么,你这怎么就忽悠我们是0.7呢。OK,如果你这么想,恭喜你,那你就天然包含了贝叶斯学派的思想!我们所谓的正常硬币向上的概率为0.5,就是贝叶斯里的先验概率。

    最大后验估计(MAP):

    为什么我们要用β分布来描述先验概率呢?

    首先一点,通过调节 Beta 分布中的a和b,你可以让这个概率分布变成各种你想要的形状!Beta 分布已经很足够表达我们事先对θθ的估计了。

    更重要的一点是,如果使用Beta 分布,会让之后的计算更加方便。因为有如下结论:

    到此为止,我们可以得到“共轭性”的真正含义了!后验概率分布(正⽐于先验和似然函数的乘积)拥有与先验分布相同的函数形式。这个性质被叫做共轭性(Conjugacy)。共轭先验(conjugate prior)有着很重要的作⽤。它使得后验概率分布的函数形式与先验概率相同,因此使得贝叶斯分析得到了极⼤的简化。例如,二项分布的参数之共轭先验就是我们前面介绍的 Beta 分布。多项式分布的参数之共轭先验则是 Dirichlet 分布,⽽⾼斯分布的均值之共轭先验是另⼀个⾼斯分布。

    总的来说,对于给定的概率分布p(X|θ)p(X|θ),我们可以寻求一个与该似然函数p(X|θ)p(X|θ)共轭的先验分布p(θ)p(θ),如此一来后验分布p(θ|X)p(θ|X)就会同先验分布具有相同的函数形式。而且对于任何指数族成员来说,都存在有一个共轭先验。

    贝叶斯估计:

    贝叶斯估计是在MAP上做进一步拓展,此时不直接估计参数的值,而是允许参数服从一定概率分布.对贝叶斯概率的复习可以参考资料【3】.

    当先验分布均匀之时,MAP 估计与 MLE 相等。直观讲,它表征了最有可能值的任何先验知识的匮乏。在这一情况中,所有权重分配到似然函数,因此当我们把先验与似然相乘,由此得到的后验极其类似于似然。因此,最大似然方法可被看作一种特殊的 MAP。

    如果先验认为这个硬币是概率是均匀分布的,被称为无信息先验( non-informative prior ),通俗的说就是“让数据自己说话”,此时贝叶斯方法等同于频率方法。

    随着数据的增加,先验的作用越来越弱,数据的作用越来越强,参数的分布会向着最大似然估计靠拢。而且可以证明,最大后验估计的结果是先验和最大似然估计的凸组合。

    4、Bayesi线性回归【4】

    1)频率学派观点和贝叶斯学派观点【5】

    之前我们一直把参数θ看成是一个未知的固定值,而贝叶斯学派则把θ看成是一个变量。贝叶斯线性回归反映了贝叶斯学派处理问题的框架:我们先构造一个初始的估计,并且随着收集到更多的数据,不断改进估计。

    2)

    基于最小二乘法的线性回归(Ordinary Linear Regression, OLR)通常仅在观测数据显著地多于权重系数维数的时候才会有好的效果。在一些学习问题中我们经常有上千的feature,如果直接用之前的线性模型,那么我们会发现很容易会导致overfitting。而贝叶斯线性回归没有此类限制。,为了防止这个问题我们可以采用贝叶斯方法。而贝叶斯线性回归没有此类限制。

    (即贝叶斯回归适用于小n大p问题)

    推导过程略

    100个samples,100个features,但关键features只有7个

    由求解部分的推导可知,若贝叶斯线性回归使用正态先验,则其MAP的估计结果等价于岭回归,而使用拉普拉斯先验的情形对应线性模型的LASSO,因此贝叶斯线性回归与使用正则化(regularization)的回归分析一样平衡了模型的经验风险和结构风险。特别地,使用拉普拉斯先验的贝叶斯线性回归由于可以得到稀疏解,因此具有一定的变量筛选(variable selection)能力。

    在模型拟合过程中,参数w、α和λ被联合估计,正则化参数α和λ通过最大化对数边缘似然来估计。scikit learn的实现基于(tipping,2001)的附录A中描述的算法,其中参数α和λ的更新按照(mackay,1992)中的建议进行。

    剩余的超参数是α和λ上gamma先验的参数α1、α2、λ1和λ2。这些通常被选择为非信息性的。默认情况下,α1=α2=λ1=λ2=10-6。(参考来源:sklearn官方文档)

    贝叶斯回归的缺点包括:对模型的推断可能很耗时。

    【1】https://blog.csdn.net/bitcarmanlee/article/details/81417151    最大似然估计,最大后验估计,贝叶斯估计联系与区别

    【2】https://www.jianshu.com/p/0046bfbdd175    什么是最大似然估计

    【3】    贝叶斯概率知识复习

    【4】https://baijiahao.baidu.com/s?id=1598705784509790616&wfr=spider&for=pc    贝叶斯线性回归方法的解释和优点

    【5】https://blog.csdn.net/huguozhiengr/article/details/81777577    统计学中的频率学派与贝叶斯学派

    相关文章

      网友评论

          本文标题:sklearn学习笔记——Bayesian回归和基本知识

          本文链接:https://www.haomeiwen.com/subject/zkhmuctx.html