【深度学习实践】01. 线性回归

作者: 砥砺前行的人 | 来源:发表于2022-01-19 13:25 被阅读0次

【深度学习实践】01. 线性回归
深度学习-1
线性回归的实现
深度学习——keras模型的保存和加载
大纲
TensorFlow自学第2篇——线性回归
深度学习_线性回归初探
线性回归模型
多项线性回归
深度学习中的正则化

线性模型既是机器学习中最基础的学习模型，也是深度神经网络中的神经元基础。而线性回归是借助线性模型解决一个或者多个自变量与因变量之间的关系的问题。在机器学习领域，大多数任务通常与预测有关。当我们预测一个数值时，就会涉及到回归问题。当然，并不是所有的预测都是回归问题，还有分类。
线性模型的一般表示如下（本质就是对 n 维输入的加权和，外加偏差）：
$\hat{y} = w_1 x_1 + ... + w_d x_d + b.$
拓展到矩阵空间的形式如下：
${\hat{\mathbf{y}}} = \mathbf{X} \mathbf{w} + b$

线性回归的目标是找到一组权重向量 w 和偏置b：当给定从 $\mathbf{X}$ 的同分布中取样的新样本特征时，这组权重向量和偏置能够使新样本预测标签的误差尽可能小。

线性模型可以看做单层的神经网络

衡量预测的质量

既然有了预测模型（线性模型），我们就可以通过线性模型进行预测，那么接踵而至的问题就是如何衡量预测的质量。预测质量即为真实值和预估值的差距，我们通常将预测的质量称为损失函数。在回归类问题中，我们的损失函数多使用 MSE（平方误差）：
$l^{(i)}(\mathbf{w}, b) = \frac{1}{2} \left(\hat{y}^{(i)} - y^{(i)}\right)^2.$

除了 MSE，深度学习中常用的损失函数还有很多，MAE（L1），CrossEntropyLoss，SmoothL1Loss等，Loss Functions

MSE 的缺点是对于离群点过于敏感，MAE的缺点是中心点不可导，不方便求解

由于样本和标签是已知的既定事实，所以损失函数是关于模型参数 $b, \mathbf{w}$ 的函数，常数 $\frac {1}{2}$ 不会带来本质上的差别，但在求导时会和平方项相互抵消。为了度量模型在整个数据集上的质量，我们通常计算在训练集中n个样本的损失均值：
$L(\mathbf{w}, b) =\frac{1}{n}\sum_{i=1}^n l^{(i)}(\mathbf{w}, b) =\frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right)^2.$

在训练模型时，我们希望寻找一组参数 $b, \mathbf{w}$ ，这组参数能最小化在所有训练样本上的总损失。如下式：
$\mathbf{w}^*, b^* = \operatorname*{argmin}_{\mathbf{w}, b}\ L(\mathbf{w}, b).$

梯度下降

梯度下降是通过计算模型基于数据集的损失函数（计算其反向梯度，也就是函数值下降最快的方向，梯度方向为函数值增长最快的方向，而负梯度为函数值减少最快的方向），通过逐次更新（所有参数同步更新）从而降低损失值的过程。在许多任务中，梯度下降都是效果较好的优化算法，它几乎可以优化所有深度学习模型。其中有一点需要注意的，通常深度学习的使用场景，数据集的量级都非常之大，动辄上G的样本，如果模型一次遍历整个数据集求出损失均值，然后进行更新，计算耗时太长，所以我们在实际的使用中，通常使用梯度下降的变体--小批量随机梯度下降（minibatch stochastic gradient descent），顾名思义，每次随机抽取一小批样本用来计算和更新。

在每次迭代中，我们首先随机抽样一个小批量 $\mathcal{B}$ ，它是由固定数量的训练样本组成的。然后，我们计算小批量的平均损失关于模型参数的导数（也可以称为梯度）。最后，我们将梯度乘以一个预先确定的正数 $\eta$ ，并从当前参数的值中减掉。
我们用下面的数学公式来表示这一更新过程（ $\partial$ 表示偏导数）：
$(\mathbf{w},b) \leftarrow (\mathbf{w},b) - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_{(\mathbf{w},b)} l^{(i)}(\mathbf{w},b).$

$|\mathcal{B}|$ 表示每个小批量中的样本数，这也称为批量大小（batch size）。 $\eta$ 表示学习率（learning rate）。批量大小和学习率的值通常是手动预先指定，而不是通过模型训练得到的。这些可以调整但不在训练过程中更新的参数称为超参数（hyperparameter）。调参（hyperparameter tuning）是选择超参数的过程。超参数通常是我们根据训练迭代结果来调整的，而训练迭代结果是在独立的验证数据集（validation dataset）上评估得到的。

批量大小 和 学习率 都是调参玄学中重要的组成部分，批量大小决定了每一个批次送入模型训练的数据集的规模，过大的批量大小容易导致内存爆满（尤其是在显存较小的GPU上进行训练），过小的批量大小则无法充分利用GPU的矩阵并行计算的能力（GPU的设计就是为了进行并行的计算，其中包含成百上千的并行计算单元）。而学习率也是如此，过大的学习率会导致迈的步子过大，损失函数无法迈入山谷，而学习率过小则可能在平原处浪费时间，导致模型需要很久的训练过程。

Pytorch 实现

import numpy as np
import torch
from torch.utils import data
from torch import nn

def synthetic_data(w, b, num_examples):
    """构造一个线性模型+随机噪声的数据集"""
    X = torch.normal(0, 1, (num_examples, len(w)))
    y = torch.matmul(X, w) + b
    y += torch.normal(0, 0.01, y.shape)
    return X, torch.reshape(y, (-1, 1))

def load_array(data_arrays, batch_size, is_train=True):
    """构造一个PyTorch数据迭代器"""
    dataset = data.TensorDataset(*data_arrays)
    return data.DataLoader(dataset, batch_size, shuffle=is_train)

true_w = torch.tensor([2, -3.4])
true_b = 4.2
features, labels = synthetic_data(true_w, true_b, 1000)
batch_size = 10
data_iter = load_array((features, labels), batch_size)

# 定义线性模型
net = nn.Sequential(nn.Linear(2, 1))
net[0].weight.data.normal_(0, 0.01)
net[0].bias.data.fill_(0)

loss = nn.MSELoss()
trainer = torch.optim.SGD(net.parameters(), lr=0.03)

num_epochs = 3
for epoch in range(num_epochs):
    for X, y in data_iter:
        l = loss(net(X) ,y)
        trainer.zero_grad()
        l.backward()
        trainer.step()
    l = loss(net(features), labels)
    print(f'epoch {epoch + 1}, loss {l:f}')

【深度学习实践】01. 线性回归
线性模型既是机器学习中最基础的学习模型，也是深度神经网络中的神经元基础。而线性回归是借助线性模型解决一个或者多个自...
深度学习-1
深度学习基础介绍单层神经网络：线性回归和softmax回归多层神经网络：多层感知机 1.线性回归例如房价预测，...
线性回归的实现
选自李沐《动手学深度学习》第三章。 3.3 线性回归的简洁实现随着深度学习框架的发展，开发深度学习应用变得...
深度学习——keras模型的保存和加载
在上一篇关于深度学习的推文中，我们介绍了使用Keras来实现机器学习中的线性回归和非线性回归算法。不过在那期的推文...
大纲
一、回归算法 1：线性回归 2：逻辑回归二、神经网络 1：深度学习三、SVM(支持向量机) 四、聚类算法五、...
TensorFlow自学第2篇——线性回归
很多道友都说，MNIST是深度学习领域的Hello World，我认为这种说法欠妥。应该这么说，线性回归是深度学习...
深度学习_线性回归初探
练习线性回归从零开始生成数据获取小批量数据初始化模型参数定义模型定义损失函数定义优化算法训练
线性回归模型
参考：1.使用Python进行线性回归2.python机器学习：多元线性回归3.线性回归概念线性回归模型是线性模...
多项线性回归
之前学习了单一线性回归和多元线性回归，这次来学习下多项线性回归，那什么事多项线性回归呢？先看下图Polynomia...
深度学习中的正则化
1、参数范数惩罚正则化在深度学习的出现前就已经被使用了数十年。线性模型，如线性回归和逻辑回归可以使用简单、直接、...