美文网首页
概率论与统计推断(四) ------ 统计推断

概率论与统计推断(四) ------ 统计推断

作者: 千喜Ya | 来源:发表于2019-08-02 12:15 被阅读0次

    本节目标 :


    一.概率论与统计推断的关系

    根据观测到的有限数据,反向思考其数据生成过程,是因为以下两个定理 :

    二.总体与样本

    总体:

    样本:

    三.直方图与箱线图(机器学习的数据探索部分会用上)

    频率直方图可以反映数据的概率密度函数:


    四分位数: Q1范围的来由 : 至少有124=3个数不大于Q1,至少有120.75=9的数据不小于Q1,5满足此条件,8不满足此条件,因此取5和8的中位数
    箱线图:中心位置是M
    散步程度:因为数据量一定,越窄的面积越小,数据也就越集中
    箱线图的重要作用 : 检测异常点
    红短线部分是疑似异常点:异常点上面的黑短线是Q1-1.5IQR
    上面长方形中的红线是M
    箱线图还适合检测比较两个或两个以上数据集的性质
    从下图两个箱线图可得知:男教师的中位数比女教师的高(因为黄长方形的中心位置比橙长方形的中心位置高)
    同时可以看出男教师的得分比较分散,没有女教师的集中
    看右边的直方图是看不出来的

    四.极大似然估计

    1.似然函数
    离散型 :
    连续型:
    两者的区别只是使用的函数不同
    2.极大似然估计

    频率学派的观点,认为有上帝在制造这些数据时参数是固定的,我们要考虑的就是每个值最有可能是这些参数值
    局限性 : 只看重事实结果,在样本容量不大的时候得到的结果往往并不可靠


    极大似然估计就是似然函数取最大值的时候对应的θ:

    五.最大后验公式

    贝叶斯学派的观点,认为并没有上帝视角,要确定这些数据是由固定参数制造出来的,因此我们关心每个参数的可能取值,给这些值一些自己认为合理的假设值(就是先验分布函数)
    局限性 : 先验分布是个非常主观的判断,无法解释取什么分布函数比较合适

    与似然函数的区别,是否有先验分布函数:
    10次抛硬币问题:函数取最大值时相比最大似然估计,最大后验估计往左移(是受到先验分布函数的影响)

    要消除两种估计的分歧 : 增加试验的次数

    1000次抛硬币:
    案例: 先求似然函数:T表示转置,将横向量转为列向量 有似然函数后再求先验分布函数:先假设W0与W1都服从N(0,T^2)[题目没有,主观认为] 最后得到的式子比较重要,在机器学习的线性回归部分会用到

    相关文章

      网友评论

          本文标题:概率论与统计推断(四) ------ 统计推断

          本文链接:https://www.haomeiwen.com/subject/jyqhdctx.html