20190811各类算法模型归纳

作者: 6bd9f7257faf | 来源:发表于2019-08-11 09:57 被阅读0次

20190811各类算法模型归纳
【基础概念】准确率和召回率
20190811各模型建立流程归纳
递归算法
机器学习判别式与生成式模型理解与总结
算法归纳
分布式学习—如何学习掌握一个分布式系统？
子字符串查找（1）
【百面机器学习】优化算法
机器学习系列-EM算法

一、回归模型

1、线性回归

1.1 模型解读

Y= $β_{0}+β_{1}X_{1}+β_{2}X_{2}+...+β_{p}X_{p}+ε$

X 自变量，形式不固定，可以是一次项，也可以是多次项，还可以是指数或对数；个数为1就是一元回归，个数是多个就是多元回归

$β_{1},β_{2},...,β_{p}$ 相关系数(一元叫斜率,多元叫偏回归系数) ，必须是一次项，否则就不是线性回归关系

$β_{0}$ 截距(是常数项)，不可省略

ε 随机误差，还可用u或e表示

Y 因变量，只能有一个

1.2 回归三种分析方法，通过估计出参数 $β_{0},β_{2},β_{2},...,β_{p}$ 达到某个值使得ε误差值最小

①、拟合方法：使用数据估计模型参数时所使用的方法

②、最大似然估计法：常用方法，但有争议

③、最小二乘法：常用方法，数据需满足一定假设条件

2、一元线性回归

2.1 模型 Y= $β_{0}+β_{1}X+ε$

2.2 $β_{0},β_{1}$ 的最小二乘估计公式

$\hat{β}_{1} =\frac{ \sum_{ }(y_{i}-\bar{y})\sum_{ }(x_{i}-\bar{x })}{\sqrt{\sum_{ }(x_{i}-\bar{x})^2} }$

$\hat{β}_{0}=\bar{y} -\hat{β}_{1}\bar{x}$

2.3 必须满足的6条假定(高斯马尔科夫假定)：

①、线性于参数，即β系数为线性系数

②、随机抽样，即样本是随机抽样得到的，残差无时间序列相关性，解决方法是把时间学列当作一个变量加入模型中。 $\lim_{h\to∞} [Cov(u_{t},u_{t-h})=f(h)]=0$ 表示残差时间序列相关

③、不存在完全共线性，即每列数据或每个变量任意两两组合不出现完全线性相关，微弱线性相关依据情况可以接受

④、误差(也叫残差)的条件均值为零，若遗漏重要变量会出现不为0.Cov(u,x)=E(u|x)=0

⑤、误差的同方差性，即残差值是恒定的。若残差散点图是左开口或右开口的喇叭状图形，或残差方差随自变量的变化成有规律性波动，则残差呈异方差性。解决方法是对y取ln

⑥、误差的正态性

2.4 假设检验，用t分布检验

2.4.1 假设设定零假设 $H_{0}$ : $β_{1}$ =0；备择假设 $H_{1} : β_{1} ≠ 0$

2.4.2 $β_{0} 和β_{1}$ 的无偏估计公式

Var( $\hat{β}_{0}$ )= $σ^2 [\frac{1}{n} +\frac{\bar{x}^2}{ \sum_{ } (x_{i}-\bar{x})^2} ]$

Var( $\hat{β}_{1}$ )= $\frac{σ^2}{ \sum_{ } (x_{i}-\bar{x})^2}$

2.4.3 $σ^2$ 的无偏估计

$\hat{σ} ^2 =\frac{\sum_{ } e_{i} ^2}{n-2} =\frac{\sum_{ } (y_{i} - \hat{y_{i}} )^2}{n-2}=\frac{SSR}{n-2}$ (SSR是残差平方和= $\sum_{ } (y_{i} - \hat{y_{i}} )^2$ ，n-2是自由度=样本观测个数-待估计的回归参数的个数)

2.4.4 标准误，即标准差的估计量

s.e.( $\hat{β_{0}}$ )= $\hat{σ} \sqrt{ \frac{1}{n} +\frac{\bar{x}^2}{ \sum_{ } (x_{i}-\bar{x})^2} }$

s.e.( $\hat{β_{1}}$ )= $\frac{\hat{σ}}{\sqrt{ \sum_{ } (x_{i}-\bar{x})^2} }$

$\hat{σ}=\sqrt{\hat{σ}^2}$

标准误越小估计精度越高

2.4.5 t检验方法

$t_{1}$ = $\frac{\hat{β_{1}-a}}{s.e.(\hat{β_{1}})}$ = $\frac{\hat{β_{1}-a}}{\frac{\hat{σ}}{\sqrt{ \sum_{ } (x_{i}-\bar{x})^2} } }$ = $\frac{(\hat{β_{1}}-a)\sqrt{ \sum_{ } ( x_{i}-\bar{х}) ^2}}{\hat{σ}}$ (a是 $H_{0}$ 假设等于的某个值)

当 $H _{0}$ 为真时， $t_{1}$ 服从自由度为 n-2 的学生氏 t分布；若| $t_{1}$ |≥t(n-2,α/2)或p(| $t_{1}$ |)≤α，则拒绝 $H_{0}$

2.5 预测

2.5.1 对于任意给定的 $x_{0}$ ，计算因变量 Y 的预测值, $\hat{y}_{0}=\hat{β}_{0}+\hat{β}_{1}x_{0}$ ，标志误 s.e.( $\hat{y}_{0}$ )= $\hat{σ} \sqrt{1+\frac{1}{n} +\frac{( x_{0}- \bar{x})^2}{ \sum_{ } (x_{i}-\bar{x})^2} }$ ,(1-α)×100% 的置信区间 $\hat{y}_{0}$ ± $t_{(n-2,α/2)}$ s.e.( $\hat{y}_{0}$ )

2.5.2 当 X = $x_{0}$ ，估计因变量的预测均值 $μ_{0}$ , $\hat{μ}_{0}$ = $\hat{β}_{0}+\hat{β}_{1}x_{0}$ ,标志误 s.e.( $\hat{μ}_{0}$ )= $\hat{σ} \sqrt{\frac{1}{n} +\frac{( x_{0}- \bar{x})^2}{ \sum_{ } (x_{i}-\bar{x})^2} }$ ,(1-α)×100% 的置信区间 $\hat{μ}_{0}$ ± $t_{(n-2,α/2)}$ s.e.( $\hat{μ}_{0}$ ）

2.5.3 评估标准

①、t检验

②、（X,Y）散点图和相关系数

③、（Y, $\hat{Y}$ ）散点图和相关系数

④、误差估计(即 R square,实际是用此方法),总离差平方和SST= $\sum_{ } (y_{i} - \bar {y} )^2$ ,残差平方和SSE= $\sum_{ } (\hat{y_{i}}-\bar {y} )^2$ (衡量X对Y的预测能力),解释平方和SSR= $\sum_{ } (y_{i} - \hat{y_{i}} )^2$ (衡量预测误差)

SST、SSR和SSE关系图示

2.5.4 决定系数 $R^2$ ,在 Y 的总变差中能被自变量 X 所解释的部分（所占的比例）,反映自变量对因变量的解释能力，范围[0,1]

$R^2$ = $\frac{SSE}{SST} =1-\frac{SSR}{SST}$ = $[Cor(Y,X)]^2$ = $[Cor(Y,\hat{Y})]^2$

3、多元线性回归

3.1 最小二乘法,估计方式

S( $β_{0},β_{1},β_{2},...,β_{p}$ )= $\sum_{i=1}^n ε_{i}^2$ = $\sum_{i=1}^n (y_{i}-β_{0}-β_{1}x_{i1}-...-β_{p}x_{ip})^2$

最小二乘回归方程 $\hat{Y}$ = $\hat{β}_{0}+\hat{β}_{1}X_{1}+\hat{β}_{2}X_{2}+...+\hat{β}_{p}X_{p}$

$y_{i}$ 的拟合值 $\hat{y}_{i}$ = $\hat{β}_{0}+\hat{β}_{1}X_{i1}+\hat{β}_{2}X_{i2}+...+\hat{β}_{p}X_{ip}$ (i=1,2,...,n)

普通最小二乘残差 $e_{i}$ = $y_{i}-\hat{y}_{i}$ (i=1,2,...,n)

3.2 偏回归系数

①、拟合 Y 对 $X_{1}$ 的一元线性回归模型。回归残差是 Y 中与 $X_{1}$ 没有线性关系的部分（经过 $X_{1}$ “调整”后的 Y）

②、拟合 $X_{2}$ 对 $X_{1}$ 的一元线性回归模型。残差是 $X_{2}$ 中与 $X_{1}$ 没有线性关系的部分（经过 $X_{1}$ “调整”后的 $X_{2}$ ）

③、拟合 $e_{Y\circ X_{1}}$ 对 $e_{X_{2}\circ X_{1}}$ 的一元线性回归模型。回归系数表示去掉 $X_{1}$ 对 Y 和 $X_{2}$ 的线性影响之后， $X_{2}$ 对 Y 的影响（即，经过 $X_{1}$ 调整后， $X_{2}$ 对Y的影响。）

3.3 评估

加入了修正的 $R^2$ (或叫调整的 $R^2$ ) $R^2_{a}$ = $1-\frac{SSR/(n-p-1)}{SST/(n-1)}$ 或 $R^2_{a}$ = $1-\frac{n-1}{n-p-1}(1-R^2)$

3.4 假设检验，统一的方法是F检验。常见的假设：所有自变量的回归系数均为 0(常常使用此 $H_{0}$ )；某些回归系数为 0；某些回归系数相等；回归系数满足某些特定的约束。

SSR(RM)= $\sum_{ } (y_{i}-\hat{y}_{i})^2$ ≥SSR(FM)= $\sum_{ } (y_{i}-\hat{y}_{i}^*)^2$

F= $\frac{[SSR(RM)-SSR(FM)]/(p+1-k)}{SSR(FM)/(n-p-1)}$ (p 为全模式下的待估参数个数，k为简化模型下待估参数个数)

或 F= $\frac{R_{p}^2/p}{(1-R_{p}^2)/(n-p-1)}$ (p 为自变量个数，n为样本数量， $R_{p}$ 样本的相关系数)

注：全模型(full model,FM) Y= $β_{0}+β_{1}X_{1}+β_{2}X_{2}+...+β_{p}X_{p}+ε$ ;简化模型(reduced model,RM)某些回归系数取指定值，简化模型中的待估参数的个数少于全模型中待估参数的个数

3.4 方差膨胀因子，衡量自变量之间的相关关系

令 $R_{j}^2$ 表示以 $X_{j}$ 为因变量，其余自变量作为自变量的回归模型中的多重相关系数的平方，则 $X_{j}$ 的方差膨胀因子定义为 $VIF_{j}=\frac{1}{1-R_{j}^2}$ ,j=1,2,...,p(p为自变量个数)。VIF∈[1,+∞)，[1,3]可以直接用来做变量；(3,7]数据需要稍微处理才能作为变量；(7,10]必须把数据处理后才能作变量;＞10 出现共线性，不能直接用作变量，需要改变变量