美文网首页StatQuest数据挖掘和人工智能
学习:StatQuest-饱和模型和偏常

学习:StatQuest-饱和模型和偏常

作者: 小潤澤 | 来源:发表于2020-01-23 11:32 被阅读0次

    前言

    抛出一个问题,假设我们的数据点来自于不同分布(两个及两个以上的分布),那么我们如何评判模型的拟合程度呢?
    假设这是些模型是仅均值不同的正态分布
    我们在每幅图片下面给模型取名字,根据数据点不同来源的分布,我们可以分为三个模型:Null model,Proposed Model和Saturated model


    Null model

    假设我有一个分布,那么对这个分布进行极大似然估计就比较轻松,如图所计算既是


    Proposed Model
    假设我们有两个分布,那么既然是极大似然,在两个分布之中每个数据点可能会对应多个似然值,那么必然是取似然值最大的,如图所计算
    Saturated model
    那么多分布也是一样的,找每个数据点对应似然值的最大值,只不过在这个多分布中,每个数据点对应的都是该分布的均值部分,即似然值是该分布的最大值

    关于三个模型

    前言中提到的三个模型,回顾下之前的知识,LL指的是log-likelihood,就是每个数据点的log(似然值)的加和
    由于Null model和Saturated model模型是两个极端情况,所以我们可以利用Null model和Saturated model模型来检测Proposed Model是否fit
    一样的利用R^2


    image.png

    这样的话,我们就可以利用上述式子来估计数据点来自不同分布的模型的fit程度了,假想一下,如果R^2 很大(越接近1),那么LL(Proposed Model)则越接近LL(Saturated Model)
    当然不是每个模型都必须要用Saturated Model来表示,R^2 高一些即可,即你的目的模型Proposed Model有高百分比能解释你的数据即可,不一定100%解释

    Residual Deviance

    image.png

    按照上述式子即可计算
    例如:


    image.png

    然后带入Chi-squared 计算p_value


    image.png
    此例p_value = 0.02

    通常deviance residuals是Residual Deviance的算数平方根,其取平方才是Residual Deviance
    image.png

    在逻辑回归中,二分类计算deviance residuals这样计算,分两类计算


    image.png

    Null Deviance

    image.png

    按照上式计算

    相关文章

      网友评论

        本文标题:学习:StatQuest-饱和模型和偏常

        本文链接:https://www.haomeiwen.com/subject/kniiactx.html