前言
抛出一个问题,假设我们的数据点来自于不同分布(两个及两个以上的分布),那么我们如何评判模型的拟合程度呢?
假设这是些模型是仅均值不同的正态分布
我们在每幅图片下面给模型取名字,根据数据点不同来源的分布,我们可以分为三个模型:Null model,Proposed Model和Saturated model
Null model
假设我有一个分布,那么对这个分布进行极大似然估计就比较轻松,如图所计算既是
Proposed Model
假设我们有两个分布,那么既然是极大似然,在两个分布之中每个数据点可能会对应多个似然值,那么必然是取似然值最大的,如图所计算
Saturated model
那么多分布也是一样的,找每个数据点对应似然值的最大值,只不过在这个多分布中,每个数据点对应的都是该分布的均值部分,即似然值是该分布的最大值
关于三个模型
前言中提到的三个模型,回顾下之前的知识,LL指的是log-likelihood,就是每个数据点的log(似然值)的加和
由于Null model和Saturated model模型是两个极端情况,所以我们可以利用Null model和Saturated model模型来检测Proposed Model是否fit
一样的利用R^2
image.png
这样的话,我们就可以利用上述式子来估计数据点来自不同分布的模型的fit程度了,假想一下,如果R^2 很大(越接近1),那么LL(Proposed Model)则越接近LL(Saturated Model)
当然不是每个模型都必须要用Saturated Model来表示,R^2 高一些即可,即你的目的模型Proposed Model有高百分比能解释你的数据即可,不一定100%解释
Residual Deviance
image.png按照上述式子即可计算
例如:
image.png
然后带入Chi-squared 计算p_value
image.png
此例p_value = 0.02
通常deviance residuals是Residual Deviance的算数平方根,其取平方才是Residual Deviance
image.png
在逻辑回归中,二分类计算deviance residuals这样计算,分两类计算
image.png
Null Deviance
image.png按照上式计算
网友评论