2.1 什么是统计学习

作者: 深海里的柠檬树 | 来源:发表于2020-07-29 14:12 被阅读0次

2.1 什么是统计学习
【TensorFlow实战——笔记】第2章：TensorFlow
无标题文章
第二章性能工具：系统CPU
20180127-28 cfa S2-L7统计概念和市场回报
【基础不牢，地动山摇】什么是统计学习
2.1 什么是Pandas
2.1什么是需求
Linux查看某个端口的连接数
2.1 Statistic Basic统计基础

首先明确基本术语 :

输入变量X (input variable) : 又名预测变量，自变量，属性变量，有时就称为变量。

输出变量Y (output variable) : 又名响应变量，因变量。

假设观察到一个定量的响应变量 $Y$ 和 $p$ 个不同的预测变量，记为 $X=(X_1,X_2,...,X_p)$ ，可以表达成一个比较一般的形式 $Y=f(x)+\epsilon$ 。其中 $f$ 是 $X_1,X_2,...,X_p$ 的函数，是固定的但是是未知的， $\epsilon$ 是随机误差项，与 $X$ 独立，且均值为0。

2.1.1 什么情况下需要估计 $f$

预测 (prediction)

许多情形下，输入集X是现成的，但输出Y是不易获得的。此时可以通过 $\hat{Y}=\hat{f}(X)$ 预测Y。一般意义下，如果 $\hat{f}$ (black box)能提供准确的预测Y，则并不追求其确切形式。而 $\hat{Y}$ 作为响应变量 $Y$ 的预测，精确性依赖于:

可约误差 (reducible error)

当所选的 $\hat{f}$ 不是 $f$ 的一个最佳估计时，对模型估计的不准确可能会引起一些误差，但是是可约的，因为我们可以选择更加合适的统计学习方法来提高 $\hat{f}$ 的精度。
不可约误差 (irreducible error)

即使我们得到的是关于 $f$ 的精准估计，预测仍然会存在误差，是因为 $Y$ 还是一个关于 $\epsilon$ 的函数。按照定义， $\epsilon$ 是不能用 $X$ 去预测的，这部分便是不可约误差。

事实上， $\epsilon$ 可能包含了对预测 $Y$ 有用但却不可直接观测的变量信息，如某个病人不良反应的风险与病人当天服药的情绪状态有关。
$E(Y-\hat{Y})=E[f(x)+\epsilon-\hat{f}(X)]^2=[f(X)-\hat{f}(X)]^2(可约)+Var(\epsilon)（不可约）$

我们重点关注估计 $f$ 的方法，使 $f$ 有最小的可约误差，但事实上不可约误差提供了 $Y$ 预测精度的一个上界，在实践中实际上是未知的。

推断 (inference)

很多情况下，我们对当 $X_1,X_2,...,X_p$ 变化时对 $Y$ 产生什么样的影响比较感兴趣，此时我们的目标不是为了预测 $Y$ ，而是想明白 $X$ 和 $Y$ 的关系，是去理解 $Y$ 作为 $X_1,X_2,...,X_p$ 的函数是如何变化的。在这种情况下，我们需要追求 $f$ 的确切形式。可能涉及以下问题：

哪些预测变量与响应变量相关？

通常情况下需要预测的变量中只有一小部分与Y充分相关，从一大组可能的变量中根据应用的需要识别一些重要的预测因子是十分必要的。
响应变量与每个预测变量之间的关系是什么？

可能成正/负相关，根据 $f$ 的复杂性，响应变量与某个给定的预测变量之间的关系也可能依赖于其他的预测变量。
$Y$ 与每个预测变量的关系是否能用一个线性方程概括，还是需要更加复杂的形式？

大多数情况下估计 $f$ 的方法采用线性形式，合理且理想。但当真正的关系更为复杂时，线性模型便远远不够。但选择复杂模型的代价时推断结果的解释性不够明晰，推断问题变得比较棘手。

2.1.2 如何估计 $f$

假设我们观测到一组 $n$ 个不同的点，这些观测点称做训练数据，我们利用这些观测点去训练或者引导，我们的方法怎样估计 $f$ 。

令 $x_{ij}$ 表示第 $i$ 个观测点的响应变量值，训练数据记作 ${(x_1,y_1),(x_2,y_2),...,(x_n,y_n)}$ ，其中 $x_i=(x_{i1},x_{i2},...,x_{ip})^T$ 。

参数方法

基于模型估计，分为两个阶段 :

建立模型假设

一个常用的假设是 $f$ 是线性的，具有如下形式 :
$f(X)=\beta_0+\beta_1X_1+\beta_2X_2+...+\beta_pX_p$
此时只需要估计 $p+1$ 个系数 $\beta_0,\beta_1,...,\beta_p$
用训练数据拟合/训练模型

最常用的即最小二乘法。

我们只需要估计参数，而不需要具体拟合函数。缺点是如果选择的模型与真实的 $f$ 差距过大，拟合出来的 $f$ 的效果也会很差。而拟合光滑度更强的模型需要更多的参数估计，会导致过拟合现象的出现 (表示这些模型拟合了错误或噪声)。

非参数方法

不需要对函数形式事先做明确的假设，追求的是估计函数在去粗和光滑处理后尽可能地与更多的数据点接近，于是可能在更大的范围选择更适宜 $f$ 形状的估计。但非参数方法有一个致命的弱点，无法将估计f的问题简化到仅仅对少数参数进行估计，所以为了获得对 $f$ 更精准的估计，往往需要大量的观测点。

2.1.3 预测精度和模型解释性的权衡

一般来说，当一种方法的光滑性增强，其解释性减弱。

几种统计方法在光滑性和解释性之间的权衡

当数据分析的目标是推断时，运用简单又相对欠光滑的统计学习方法具有明显的优势。然而在另外一些情况下，如果仅仅是对预测感兴趣，至于预测模型是否易于解释并不关心，也许我们会想当然地认为选择光滑度更高的方法才是更优的选择，但往往事实并非如此。欠光滑度模型乍一看违反直觉，但这正是其抗高光滑模型过拟合缺陷的能力所在。

2.1.4 监督学习和无监督学习

监督学习 (supervised)

对于每一个预测变量观测值 $x_i(i=1,...,n)$ 都有相应的响应变量的观测的 $y_i$ ，建模的目标是通过建立预测变量和响应变量之间的关系，精准预测响应变量或更好地理解响应变量与预测变量的关系。

常见的包括线性回归 , 逻辑回归 (logistic regression) , 广义可加模型 (GAM) , 提升方法和支持向量机 (SVM) 等。
无监督学习 (unsupervised)

只有预测变量观测值 $x_i(i=1,...,n)$ ，没有响应的响应变量与之对应。对这类问题拟合线性模型是不可能的，因为缺乏响应变量用于预测。

常见的包括聚类分析。

2.1.5 回归与分类问题

根据响应变量是定性的还是定量的来选择所需的统计学习方法是数据分析的常规思维。

定量时，通常选用线性回归模型；定性时，通常选用逻辑回归。

2.1 什么是统计学习
首先明确基本术语 : 输入变量X (input variable) : 又名预测变量，自变量，属性变量，有时就称为...
【TensorFlow实战——笔记】第2章：TensorFlow
2.1 主流深度学习框架对比各个开源框架在Github上的数据统计数据统计截止于2017.07.15 可以看到...
无标题文章
课程介绍机器学习（Machine Learning, ML)2.1 概念：多领域交叉学科，涉及概率论、统计学、...
第二章性能工具：系统CPU
2.1 CPU性能统计信息 2.1.1运行队列统计在Linux中，一个进程要么是可运行的，要么是阻塞的（正在等待...
20180127-28 cfa S2-L7统计概念和市场回报
1.描述统计和推断统计 2.描述统计—概念,分类,画图,描述参数/变量 2.1概念：总体 population-...
【基础不牢，地动山摇】什么是统计学习
最近阅读了李航教授的统计学习，因此简单做个笔记，全当是对自己知识体系的差漏补缺。什么是统计学习？统计学习是计算...
2.1 什么是Pandas
2.1什么是需求
需求就是需求吗？在互联网公司里，产品经理现在是需求的代言人，基本言必称需求。今天老板提了个需求、明天客户提了个需...
Linux查看某个端口的连接数
查看哪些IP连接本机查看TCP连接数2.1 统计80端口连接数 2.2 统计httpd协议连接数 2.3 统计已...
2.1 Statistic Basic统计基础