c01_linear models (线性模型)

作者: 枇杷膏_a56b | 来源:发表于2020-04-25 17:01 被阅读0次

c01_linear models (线性模型)
DALS011-Linear Models线性模型01
DALS016-Linear Models线性模型05共线性
DALS014-Linear Models线性模型03比较(co
广义线性模型二（Generalized Linear Model
DALS012-Linear Models线性模型02
DALS015-Linear Models线性模型04方差分析
Django框架MySQL数据库到models模型的映射关系
R语言_lm()、abline()函数用法
【django】【基础】models

写在前面

本文依据python中的机器学习库scikit-learn中的官方教程，并加入自己的理解。
说明：
@ 用于注释信息

用于条目信息

Introduction

线性模型的一般形式：
$\hat{y}(\omega, x) = \omega_0 + \omega_1x_1 + ... + \omega_px_p$
@ 在上式中， $\omega = (\omega_1...\omega_p)$ 为权重， $\omega_0$ 为截距。

1.1.1. Ordinary Least Squares （一般最小平方）

线性回归的主要任务是根据样本数据点，拟合一条残差平方和最小的直线，如下图。

用数学表示：
$\min_{i=0}^n = ||X\omega-y||_2^2$
@ X为输入值， $\omega$ 为系数矩阵，y为输出真值，线性回归就是要找到一系列 $\omega$ ，使得上式获得最小值。
代码示例

>>> from sklearn import linear_model
>>> reg = linear_model.LinearRegression()
>>> reg.fit([[0, 0], [1, 1], [2, 2]], [0, 1, 2])
LinearRegression()
>>> reg.coef_
array([0.5, 0.5])

1.1.1.1. Ordinary Least Squares Complexity （一般线性模型的复杂度）

设X矩阵中的样本数与特征数为 $n_{samples}, n_{features}$ ，且 $n_{samples}\geq n_{features}$ 则计算复杂度为 $O(n_{samples}n_{features}^2)$ 。

1.1.2. Ridge regression and classification (岭回归和分类)

1.1.2.1. Regression (回归)

岭回归主要是在一般线性回归模型中加入惩罚项，避免受到极端样本值的影响：
$\min_{w} || X w - y||_2^2 + \alpha ||w||_2^2$
@ $\alpha \geq 0$ ，用于控制收敛的程度，超参数。 $\alpha$ 越大，则受极值的影响越小，共线性越强。
@ 由于加入了 $\alpha||w||_2^2$ ，使得 $||w||$ 不能过大。

示例代码

>>> from sklearn import linear_model
>>> reg = linear_model.Ridge(alpha=.5) # 使用岭回归需要设置超参数alpha
>>> reg.fit([[0, 0], [0, 0], [1, 1]], [0, .1, 1])
Ridge(alpha=0.5)
>>> reg.coef_
array([0.34545455, 0.34545455])
>>> reg.intercept_
0.13636...

1.1.2.2. Classification

岭回归中有岭回归分类器 RidgeClassifier
将输出转换为 {-1, 1} 的输出。
如果为多分类任务，则比较多输出，预测值为输出最高值。
岭回归比逻辑回归快很多：因为只需要计算
$(X^T X)^{-1} X^T$ 一次。
岭回归有时也被成为最小平方支持向量机（Least Squares Support Vector Machines）
岭回归复杂度与一般回归一致。

1.1.2.4 Setting the regularization parameter: generalized Cross-Validation

scikit-learn提供了自动搜索最佳 $\alpha$ 的功能

示例代码

>>> import numpy as np
>>> from sklearn import linear_model
>>> reg = linear_model.RidgeCV(alphas=np.logspace(-6, 6, 13))
>>> reg.fit([[0, 0], [0, 0], [1, 1]], [0, .1, 1])
RidgeCV(alphas=array([1.e-06, 1.e-05, 1.e-04, 1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01,
      1.e+02, 1.e+03, 1.e+04, 1.e+05, 1.e+06]))
>>> reg.alpha_
0.01

自动搜索参数会触发网格搜索机制 Gridserchcv

1.1.3. Lasso

用于稀疏权重系数
数学表示：
$\min_{w} { \frac{1}{2n_{\text{samples}}} ||X w - y||_2 ^ 2 + \alpha ||w||_1}$
@ 对于LASSO来说，与岭回归点区别在于正则项点系数不是平方，而是绝对值。
@ LASSO为L1范数。
示例代码：

>>> from sklearn import linear_model
>>> reg = linear_model.Lasso(alpha=0.1)
>>> reg.fit([[0, 0], [1, 1]], [0, 1])
Lasso(alpha=0.1)
>>> reg.predict([[1, 1]])
array([0.8])

1.1.3.1. Setting regularization parameter

$\alpha$ 参数，控制正则项点程度。

比较岭回归和LASSO

@ LASSO比较直，岭回归是曲线。
@ 说明LASSO优化过程中，使得一部分变为0。岭回归则将部分变点很小。LASSO可以选择有用点特征。

Lp范数

$||X||_p = (\sum_{i=1}^n|x_i|^p)^{\frac{1}{p}}$

岭回归与LASSO回归比较

两者使用了不同点正则项

L0正则

$J(\theta)=MSE(y, \hat{y};\theta)+min\{number-of-non-zero-\theta\}$
$\theta$ 的个数尽可能点小即非0 $\theta$ 个数最小。

1.1.5. Elastic-Net（弹性网）

同时加入L1和L2正则项。
$\min_{w} { \frac{1}{2n_{\text{samples}}} ||X w - y||_2 ^ 2 + \alpha \rho ||w||_1 + \frac{\alpha(1-\rho)}{2} ||w||_2 ^ 2}$
$\rho, \alpha$ 都是超参数。

1.1.7. Least Angle Regression (LARS)

用于解决高维数据的回归算法。
每一步找到与目的输出关系最大的特征系数。
当多个特征具有相同的关系时，选取系数所表示空间的中间角度。

LARS优点

当特征数比样本数多时很有效
与其他算法结合很容易，如LASSO

c01_linear models (线性模型)
写在前面本文依据python中的机器学习库scikit-learn中的官方教程，并加入自己的理解。说明：@ 用于...
DALS011-Linear Models线性模型01
title: DALS011-Linear Models线性模型01MatrixDescriptiondate: ...
DALS016-Linear Models线性模型05共线性
title: DALS016-Linear Models线性模型05共线性date: 2019-08-20 12:...
DALS014-Linear Models线性模型03比较(co
title: DALS014-Linear Models线性模型03比较(contrast)与交互项date: 2...
广义线性模型二（Generalized Linear Model
在上一篇广义线性模型一（Generalized Linear Models，GLM） - 简书 (jianshu....
DALS012-Linear Models线性模型02
title: DALS012-Linear Models线性模型02date: 2019-08-17 12:0:0...
DALS015-Linear Models线性模型04方差分析
title: DALS015-Linear Models线性模型04方差分析date: 2019-08-20 12...
Django框架MySQL数据库到models模型的映射关系
设计models模型 Django自动生成models如果数据库表已经存在，执行命令，可以自动生成Models模型...
R语言_lm()、abline()函数用法
前言:微博参与话题 #给你四年时间你也学不会生信# Fitting Linear Models| 线性模型 lm是...
【django】【基础】models
models 创建模型：打开supporter/models.py 添加模型类：Article 创建数据库迁移：...

c01_linear models (线性模型)

写在前面

Introduction

1.1.1. Ordinary Least Squares （一般最小平方）

1.1.1.1. Ordinary Least Squares Complexity （一般线性模型的复杂度）

1.1.2. Ridge regression and classification (岭回归和分类)

1.1.2.1. Regression (回归)

1.1.2.2. Classification

1.1.2.4 Setting the regularization parameter: generalized Cross-Validation

1.1.3. Lasso

1.1.3.1. Setting regularization parameter

比较岭回归和LASSO

Lp范数

岭回归与LASSO回归比较

L0正则

1.1.5. Elastic-Net（弹性网）

1.1.7. Least Angle Regression (LARS)

LARS优点

相关文章

c01_linear models (线性模型)

DALS011-Linear Models线性模型01

DALS016-Linear Models线性模型05共线性

DALS014-Linear Models线性模型03比较(co

广义线性模型二（Generalized Linear Model

DALS012-Linear Models线性模型02

DALS015-Linear Models线性模型04方差分析

Django框架MySQL数据库到models模型的映射关系

R语言_lm()、abline()函数用法

【django】【基础】models

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读