美文网首页
2.1 什么是统计学习

2.1 什么是统计学习

作者: 深海里的柠檬树 | 来源:发表于2020-07-29 14:12 被阅读0次

首先明确基本术语 :

输入变量X (input variable) : 又名预测变量,自变量,属性变量,有时就称为变量。

输出变量Y (output variable) : 又名响应变量,因变量。

假设观察到一个定量的响应变量Yp个不同的预测变量,记为X=(X_1,X_2,...,X_p),可以表达成一个比较一般的形式Y=f(x)+\epsilon。其中fX_1,X_2,...,X_p的函数,是固定的但是是未知的,\epsilon是随机误差项,与X独立,且均值为0。

2.1.1 什么情况下需要估计f

  • 预测 (prediction)

    许多情形下,输入集X是现成的,但输出Y是不易获得的。此时可以通过\hat{Y}=\hat{f}(X)预测Y。一般意义下,如果\hat{f} (black box)能提供准确的预测Y,则并不追求其确切形式。而\hat{Y}作为响应变量Y的预测,精确性依赖于:

  1. 可约误差 (reducible error)

    当所选的\hat{f}不是f的一个最佳估计时,对模型估计的不准确可能会引起一些误差,但是是可约的,因为我们可以选择更加合适的统计学习方法来提高\hat{f}的精度。

  2. 不可约误差 (irreducible error)

    即使我们得到的是关于f的精准估计,预测仍然会存在误差,是因为Y还是一个关于\epsilon的函数。按照定义,\epsilon是不能用X去预测的,这部分便是不可约误差。

    事实上,\epsilon可能包含了对预测Y有用但却不可直接观测的变量信息,如某个病人不良反应的风险与病人当天服药的情绪状态有关。
    E(Y-\hat{Y})=E[f(x)+\epsilon-\hat{f}(X)]^2=[f(X)-\hat{f}(X)]^2(可约)+Var(\epsilon)(不可约)

    我们重点关注估计f的方法,使f有最小的可约误差,但事实上不可约误差提供了Y预测精度的一个上界,在实践中实际上是未知的。

  • 推断 (inference)

    很多情况下,我们对当X_1,X_2,...,X_p变化时对Y产生什么样的影响比较感兴趣,此时我们的目标不是为了预测Y,而是想明白XY的关系,是去理解Y作为X_1,X_2,...,X_p的函数是如何变化的。在这种情况下,我们需要追求f的确切形式。可能涉及以下问题:

  1. 哪些预测变量与响应变量相关?

    通常情况下需要预测的变量中只有一小部分与Y充分相关,从一大组可能的变量中根据应用的需要识别一些重要的预测因子是十分必要的。

  2. 响应变量与每个预测变量之间的关系是什么?

    可能成正/负相关,根据f的复杂性,响应变量与某个给定的预测变量之间的关系也可能依赖于其他的预测变量。

  3. Y与每个预测变量的关系是否能用一个线性方程概括,还是需要更加复杂的形式?

    大多数情况下估计f的方法采用线性形式,合理且理想。但当真正的关系更为复杂时,线性模型便远远不够。但选择复杂模型的代价时推断结果的解释性不够明晰,推断问题变得比较棘手。

2.1.2 如何估计f

假设我们观测到一组n个不同的点,这些观测点称做训练数据,我们利用这些观测点去训练或者引导,我们的方法怎样估计f

x_{ij}表示第i个观测点的响应变量值,训练数据记作{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)},其中x_i=(x_{i1},x_{i2},...,x_{ip})^T

  • 参数方法

    基于模型估计,分为两个阶段 :

  1. 建立模型假设

    一个常用的假设是f是线性的,具有如下形式 :
    f(X)=\beta_0+\beta_1X_1+\beta_2X_2+...+\beta_pX_p
    此时只需要估计p+1个系数\beta_0,\beta_1,...,\beta_p

  2. 用训练数据拟合/训练模型

    最常用的即最小二乘法。

    我们只需要估计参数,而不需要具体拟合函数。缺点是如果选择的模型与真实的f差距过大,拟合出来的f的效果也会很差。而拟合光滑度更强的模型需要更多的参数估计,会导致过拟合现象的出现 (表示这些模型拟合了错误或噪声)。

  • 非参数方法

    不需要对函数形式事先做明确的假设,追求的是估计函数在去粗和光滑处理后尽可能地与更多的数据点接近,于是可能在更大的范围选择更适宜f形状的估计。但非参数方法有一个致命的弱点,无法将估计f的问题简化到仅仅对少数参数进行估计,所以为了获得对f更精准的估计,往往需要大量的观测点。

2.1.3 预测精度和模型解释性的权衡

一般来说,当一种方法的光滑性增强,其解释性减弱。

几种统计方法在光滑性和解释性之间的权衡

当数据分析的目标是推断时,运用简单又相对欠光滑的统计学习方法具有明显的优势。然而在另外一些情况下,如果仅仅是对预测感兴趣,至于预测模型是否易于解释并不关心,也许我们会想当然地认为选择光滑度更高的方法才是更优的选择,但往往事实并非如此。欠光滑度模型乍一看违反直觉,但这正是其抗高光滑模型过拟合缺陷的能力所在。

2.1.4 监督学习和无监督学习

  • 监督学习 (supervised)

    对于每一个预测变量观测值x_i(i=1,...,n)都有相应的响应变量的观测的y_i,建模的目标是通过建立预测变量和响应变量之间的关系,精准预测响应变量或更好地理解响应变量与预测变量的关系。

    常见的包括线性回归 , 逻辑回归 (logistic regression) , 广义可加模型 (GAM) , 提升方法和支持向量机 (SVM) 等。

  • 无监督学习 (unsupervised)

    只有预测变量观测值x_i(i=1,...,n),没有响应的响应变量与之对应。对这类问题拟合线性模型是不可能的,因为缺乏响应变量用于预测。

    常见的包括聚类分析。

2.1.5 回归与分类问题

根据响应变量是定性的还是定量的来选择所需的统计学习方法是数据分析的常规思维。

定量时,通常选用线性回归模型;定性时,通常选用逻辑回归。

相关文章

网友评论

      本文标题:2.1 什么是统计学习

      本文链接:https://www.haomeiwen.com/subject/iimhrktx.html