统计学（49）-广义可加模型

作者: Zhigang_Han | 来源:发表于2020-02-11 17:59 被阅读0次

统计学（49）-广义可加模型
数学与统计虐我千百遍……
R语言|广义相加模型(GAM)
统计学（48）-广义线性模型
统计学习方法概论
李航-第1章统计学习方法概论
机器学习笔记-03-广义线性模型推导线性回归及逻辑回归
统计学习方法（李航）---第一章
广义线性混合模型（GLMM）
广义线性模型

1、基本概念

（1）广义线性模型这一概念基本上把常规的统计方法都统一起来了，但它仍是一个“线性“模型，不管分布或连接函数是何种形式，都必须满足“线性”这一条件。
（2）"非线性"是一个很广泛的概念，它有两种情况。一种是固定的、一定表达形式的非线性，如二次项、对数关系、指数关系等。它们虽然不是线性的，但通过一定的变换后仍可以满足线性关系。这也就是我们通常所说的非线性回归，只要能找到恰当的变换方式，就可以很容易拟合因变量和自变量的关系。
如下图所示，，分别对自变量进行了对数转换和二次项转换，这两种转换最终都可以用方程式表达出来（二
次项是自变量中心化后的方程），分别为：

image.png

（3）还有一种情况是，没有现成的恰当变换形式，或者说，没有一个现成的表达式能够描述因变量与自变量的关系，因为它可能跟对数、二次项等看起来都不是特别吻合，没有一个函数能够把这条线表达出来，但是从另一方面来说，下图的拟合效果可能要好于上图。

image.png

2、为什么会出现这种情况呢？

（1）因为凡是能用表达式描述的，必定会有一定限制，如二次项，一定是先高后低（或先低后高）的形式，只是幅度不同而已。
（2）上图中不局限于某种表达方式，只是在寻找更贴近点的曲线，其拟合效果更好。
（3）对于这种拟合方式，一般统称为非参数回归，也就是说不用估计参数。前面所说的非线性回归仍属于参数回归的范畴，因为最终仍能估计出回归系数（参数估计值）。而非参数回归则没有回归系数可估计，只是在寻找一条拟合效果相对较好的曲线。

3、广义可加模型的提出

（1）非参数回归一般只能拟合1个自变量，所以后来统计学家提出了可加模型(Additive Model), 可以同时拟合多个自变量；再后来又提出了广义可加模型(Generalized Additive Model), 将因变量扩展到分类资料、计数资料等更广泛的范围（就像广义线性模型一样）。
（2）与参数回归相比，非参数回归与其最大的差异就是拟合变量的数量变多了。因此，广义可加模型可以执行因变量与多个自变量的各种非参数拟合，而且因变量可以是服从二项分布、Poisson分布、Gamma分布等更加广义的范畴。

4、广义可加模型的公式

（1）广义可加模型将线性模型中的队βx换成了fx（可以是线性也可以是非线性的函数关系），因此广义可加模型的形式就变成了:

image.png

5、广义可加模型与广义线性模型的差异

（1）广义可加模型和广义线性模型的样子差不多，但不同的是，在广义线性模型中要求每个自变量与因变量（连接函数）必须为线性关系；而在广义可加模型中则放宽了这一条件，允许二者之间为非线性关系。
（2）与广义线性模型相比，广义可加模型允许自变量与因变昼采用任意形式，目的在于寻找二者的最佳拟合，或者说，寻找一条最贴合数据的曲线。

5、是否会过度拟合？

如果一条曲线能够经过所有的点，这不就是最贴合了吗？如下图：

image.png
图中的曲线，对这12 个点来说是最佳拟合，因为它完美地经过了所有的点。
但这种曲线并没有太大价值，因为它只是对这份样本数据拟合得最好，推广到其它数据就未必了，也就是说不具备“普遍规律”得特性。
这种即使最贴合但是毫无价值的拟合，叫做过度拟合（Overfitting）

6、什么样的模型比较好？

（1）统计建模的目的是推而广之，仅对一份数据拟合效果好并不是真的好，要对所有数据都有一个好的拟合效果，这才是我们要找的模型。

image.png

上图中的二次项曲线，虽然该曲线可能连一个点都没有完全穿过，但它给出了大致的数据形式。该曲线可能对这份数据的拟合效果不算太好，但对于其他年份或其他地区却同样适用，它们都大致符合这一规律（先升高后降低）。
（2）广义可加模型其实并不是一味地追求拟合效果好，还要考虑曲线光滑度的问题。光滑度好，意思就是曲线的弯曲尽可能少，如直线的光滑度最好，因为它没有弯曲；二次项只有一个弯曲，光滑度也可以；弯曲越多，越难以将其用方程表达出来。
（3）广义可加模型就是力求找到一条既能很好地拟合数据，同时又保证较为光滑的曲线，用专业术语来说就是偏差－方差权衡(Bias-Variance Trade-off) 。

7、偏差和方差怎样平衡呢？

（1）所谓偏差小，也就是拟合效果好，即尽可能地切合所有点；方差小则反映了对于同一总体数据，每次抽样样本拟合的模型应该是差不多的（如所有样本拟合的都是直线回归，而不是在这个样本数据中是直线关系，而到了另一个样本数据中又是二次项关系），这时曲线的光滑度一般较好。
（2）重点理解偏差-方差平衡
所谓的偏差－方差权衡，意思就是尽量找到一个偏差和方差都较小的模型，因为如果一味地追求偏差小，那么尽管对当前样本数据的拟合效果非常好，但模型过于复杂，难以推广；如果一味地追求方差小，则模型过于简单，不能最佳拟合数据。

8、光滑参数

（1）拟合优度和光滑度之间的结合点通常用光滑参数(Smoothing Parameter)来表示，通过设定光滑参数的大小可以调整曲线的光滑度。光滑参数越小，数据拟合效果越好，但线条波动非常大，光滑度不好；光滑参数越大，线条越光滑，但拟合效果欠佳，最光滑的曲线就是直线。
（2）如何找到一个光滑参数以保证同时满足拟合效果和光滑度都较好呢？
实际中常采用留一交叉验证(Leave-one-out Cross Validation) 法。其基本思想是：
对于n个数据，每次拟合光滑函数时留出一个数据点，然后用其余的n-1个数据估计出这一点的拟合值，并与实际值（留出的一个点）比较求出光滑参数的残差平方。当每个数据都被留出一次时，便可求出n个残差的平方和。交叉验证法就是要取一个光滑参数，使得残差平方和最小。（只有一个点的，是否太小，还是我的理解有误）

9、广义可加模型的用处

广义可加模型以探索和预测为主，因为它不像广义线性模型一样可以给出参数估计值，只能给出一条拟合效果最好的曲线，但这条曲线往往无法用一个函数表示出来，因此它无法给出一个像广义线性模型那样的表达式。（太复杂，并没有明确规律）
但这并不是说广义可加模型就没有用处，事实上，它至少在以下两个方面还是非常有效的。
（1）初步探索自变量与因变量的恰当关系。如下图，就可以粗看出3次项。

image.png
通过广义可加模型的探索，发现二者大致为三次项关系，将自变量进行三次项转换，然后执行线性回归，便可得到因变量与自变量三次项的关系如下：

image.png
可以看出，因变量对自变量的三次多项式在0.1的水平上一次、二次和三次都是有统计学意义的。
因此，如果你想深入地探索数据，那么广义可加模型可以帮助你找到一个较好的关系，然后看这个关系大致符合哪个函数（是二次项还是对数形式），将其进行变量变换，再执行参数模型，便可得到自变量对因变量影响的参数估计值。
（2）只是预测，无须给出参数模型的具体形式。
广义可加模型尽管无法给出参数估计值，但它给出了一条既贴合数据又不是特别复杂的拟合曲线，可以利用该曲线对因变量进行预测。一般情况下，这种预测效果比参数模型要好。（参数模型全局性强，往往忽略局部）

统计学（49）-广义可加模型
1、基本概念（1）广义线性模型这一概念基本上把常规的统计方法都统一起来了，但它仍是一个“线性“模型，不管分布或连...
数学与统计虐我千百遍……
被数学和统计虐惨的我广义线性模型广义可加模型广义估计方程线性混合模型线性相加模型广义线性混合模型一般...
R语言|广义相加模型(GAM)
转自个人微信公粽号【易学统计】的统计学习笔记：R软件：广义相加模型(GAM)[https://mp.weixin....
统计学（48）-广义线性模型
1、一般线性模型和广义线性模型一般线性模型统一了不同类型的自变量，但因变量仍仅限于连续变量。而广义线性模型（Ge...
统计学习方法概论
统计学习方法概论统计学习监督学习统计学习三要素模型评估与模型选择泛化能力生成模型与判别模型分类问题 ...
李航-第1章统计学习方法概论
统计学习方法的三要素：模型、策略和算法。即：统计学习方法 = 模型 + 策略 +算法基本概念监督学习统计学习包...
机器学习笔记-03-广义线性模型推导线性回归及逻辑回归
本文我们讨论以下问题：指数分布族广义线性模型利用广义线性模型构建线性回归利用广义线性模型构建二分类逻辑回归...
统计学习方法（李航）---第一章
（一）统计学习三要素：模型、策略、算法（二）统计学习： 1.定义：基于数据建立概率统计模型并运用模型对数据进行预...
广义线性混合模型（GLMM）
知识背景广义线性混合模型可以看做是广义线性模型（GLM）以及线性混合模型(LMM)的扩展，为了更好地理解GLMM...
广义线性模型
本文转自：广义线性模型今天我来介绍一种在机器学习中应用的比较多的模型，叫做广义线性模型（GLM）。这种模型是把...