1、基本概念
(1)广义线性模型这一概念基本上把常规的统计方法都统一起来了,但它仍是一个“线性“模型,不管分布或连接函数是何种形式,都必须满足“线性”这一条件。
(2)"非线性"是一个很广泛的概念,它有两种情况。一种是固定的、一定表达形式的非线性,如二次项、对数关系、指数关系等。它们虽然不是线性的,但通过一定的变换后仍可以满足线性关系。这也就是我们通常所说的非线性回归,只要能找到恰当的变换方式,就可以很容易拟合因变量和自变量的关系。
如下图所示,,分别对自变量进行了对数转换和二次项转换,这两种转换最终都可以用方程式表达出来( 二
次项是自变量中心化后的方程),分别为:
image.png
image.png
(3)还有一种情况是,没有现成的恰当变换形式,或者说,没有一个现成的表达式能够描述因变量与自变量的关系,因为它可能跟对数、二次项等看起来都不是特别吻合,没有一个函数能够把这条线表达出来,但是从另一方面来说,下图的拟合效果可能要好于上图。
image.png
2、为什么会出现这种情况呢?
(1)因为凡是能用表达式描述的,必定会有一定限制,如二次项,一定是先高后低(或先低后高)的形式,只是幅度不同而已。
(2)上图中不局限于某种表达方式,只是在寻找更贴近点的曲线,其拟合效果更好。
(3)对于这种拟合方式,一般统称为非参数回归,也就是说不用估计参数。前面所说的非线性回归仍属于参数回归的范畴,因为最终仍能估计出回归系数(参数估计值)。而非参数回归则没有回归系数可估计,只是在寻找一条拟合效果相对较好的曲线。
3、广义可加模型的提出
(1)非参数回归一般只能拟合1个自变量,所以后来统计学家提出了可加模型(Additive Model), 可以同时拟合多个自变量;再后来又提出了广义可加模型(Generalized Additive Model), 将因变量扩展到分类资料、计数资料等更广泛的范围(就像广义线性模型一样)。
(2)与参数回归相比,非参数回归与其最大的差异就是拟合变量的数量变多了。因此,广义可加模型可以执行因变量与多个自变量的各种非参数拟合,而且因变量可以是服从二项分布、Poisson分布、Gamma分布等更加广义的范畴。
4、广义可加模型的公式
(1)广义可加模型将线性模型中的队βx换成了fx(可以是线性也可以是非线性的函数关系),因此广义可加模型的形式就变成了:
image.png
5、广义可加模型与广义线性模型的差异
(1)广义可加模型和广义线性模型的样子差不多,但不同的是,在广义线性模型中要求每个自变量与因变量(连接函数)必须为线性关系;而在广义可加模型中则放宽了这一条件,允许二者之间为非线性关系。
(2)与广义线性模型相比,广义可加模型允许自变量与因变昼采用任意形式,目的在于寻找二者的最佳拟合,或者说,寻找一条最贴合数据的曲线。
5、是否会过度拟合?
如果一条曲线能够经过所有的点,这不就是最贴合了吗?如下图:
图中的曲线,对这12 个点来说是最佳拟合,因为它完美地经过了所有的点。
但这种曲线并没有太大价值,因为它只是对这份样本数据拟合得最好,推广到其它数据就未必了,也就是说不具备“普遍规律”得特性。
这种即使最贴合但是毫无价值的拟合,叫做过度拟合(Overfitting)
6、什么样的模型比较好?
(1)统计建模的目的是推而广之,仅对一份数据拟合效果好并不是真的好,要对所有数据都有一个好的拟合效果,这才是我们要找的模型。
image.png
上图中的二次项曲线,虽然该曲线可能连一个点都没有完全穿过,但它给出了大致的数据形式。该曲线可能对这份数据的拟合效果不算太好,但对于其他年份或其他地区却同样适用,它们都大致符合这一规律(先升高后降低)。
(2)广义可加模型其实并不是一味地追求拟合效果好,还要考虑曲线光滑度的问题。光滑度好,意思就是曲线的弯曲尽可能少,如直线的光滑度最好,因为它没有弯曲;二次项只有一个弯曲,光滑度也可以;弯曲越多,越难以将其用方程表达出来。
(3)广义可加模型就是力求找到一条既能很好地拟合数据,同时又保证较为光滑的曲线,用专业术语来说就是偏差-方差权衡(Bias-Variance Trade-off) 。
7、偏差和方差怎样平衡呢?
(1)所谓偏差小,也就是拟合效果好,即尽可能地切合所有点;方差小则反映了对于同一总体数据,每次抽样样本拟合的模型应该是差不多的(如所有样本拟合的都是直线回归,而不是在这个样本数据中是直线关系,而到了另一个样本数据中又是二次项关系),这时曲线的光滑度一般较好。
(2)重点理解偏差-方差平衡
所谓的偏差-方差权衡,意思就是尽量找到一个偏差和方差都较小的模型,因为如果一味地追求偏差小,那么尽管对当前样本数据的拟合效果非常好,但模型过于复杂,难以推广;如果一味地追求方差小,则模型过于简单,不能最佳拟合数据。
8、光滑参数
(1)拟合优度和光滑度之间的结合点通常用光滑参数(Smoothing Parameter)来表示,通过设定光滑参数的大小可以调整曲线的光滑度。光滑参数越小,数据拟合效果越好,但线条波动非常大,光滑度不好;光滑参数越大,线条越光滑,但拟合效果欠佳,最光滑的曲线就是直线。
(2)如何找到一个光滑参数以保证同时满足拟合效果和光滑度都较好呢?
实际中常采用留一交叉验证(Leave-one-out Cross Validation) 法。其基本思想是:
对于n个数据,每次拟合光滑函数时留出一个数据点,然后用其余的n-1个数据估计出这一点的拟合值,并与实际值(留出的一个点)比较求出光滑参数的残差平方。当每个数据都被留出一次时,便可求出n个残差的平方和。交叉验证法就是要取一个光滑参数,使得残差平方和最小。(只有一个点的,是否太小,还是我的理解有误)
9、广义可加模型的用处
广义可加模型以探索和预测为主,因为它不像广义线性模型一样可以给出参数估计值,只能给出一条拟合效果最好的曲线,但这条曲线往往无法用一个函数表示出来,因此它无法给出一个像广义线性模型那样的表达式。(太复杂,并没有明确规律)
但这并不是说广义可加模型就没有用处,事实上,它至少在以下两个方面还是非常有效的。
(1)初步探索自变量与因变量的恰当关系。如下图,就可以粗看出3次项。
通过广义可加模型的探索,发现二者大致为三次项关系,将自变量进行三次项转换,然后执行线性回归,便可得到因变量与自变量三次项的关系如下:
image.png
可以看出,因变量对自变量的三次多项式在0.1的水平上一次、二次和三次都是有统计学意义的。
因此,如果你想深入地探索数据,那么广义可加模型可以帮助你找到一个较好的关系,然后看这个关系大致符合哪个函数(是二次项还是对数形式),将其进行变量变换,再执行参数模型,便可得到自变量对因变量影响的参数估计值。
(2)只是预测,无须给出参数模型的具体形式。
广义可加模型尽管无法给出参数估计值,但它给出了一条既贴合数据又不是特别复杂的拟合曲线,可以利用该曲线对因变量进行预测。一般情况下,这种预测效果比参数模型要好。(参数模型全局性强,往往忽略局部)
网友评论