2.1线性神经网络

作者: 纵春水东流 | 来源:发表于2021-04-25 16:46 被阅读0次

2.1线性神经网络
独家连载 | 线性神经网络应用
激活函数总结
深度学习-1
4. 深度学习-损失函数
激活函数与损失函数
Pytorch_第九篇_神经网络中常用的激活函数
第二章线性表
图像分类-线性分类I
激活函数专题

1. 线性回归模型

1.1 模型
单样本: $\hat{y} = w_1 x_1 + ... + w_d x_d + b$ # $w_{1-d},b$ 为参数， $x_{1-d}$ 为样本特征
样本集: ${\hat{y}} = {X} {w} + b$ #X形状为[n,d]，n个d个特征样本集合

损失函数 $l^{(i)}(w, b) = \frac{1}{2} \left(\hat{y}^{(i)} - y^{(i)}\right)^2.$
最佳参数： ${w}^*, b^* = \operatorname*{argmin}_{{w}, b}\ L({w}, b).$ #最佳参数为损失函数最小值时的参数

1.2参数的解法
解析解： ${w}^* = ( X^\top X)^{-1} X^\top {y}.$
梯度下降： $({w},b)\leftarrow ({w},b) - \frac{\eta}{|{B}|} \sum_{i \in{B}} \partial_{({w},b)} l^{(i)}({w},b).$

1.3平方损失的由来
假设：x属于正态分布、y也属于正态分布
$p(x) = \frac{1}{\sqrt{2 \pi\sigma^2}} \exp\left(-\frac{1}{2 \sigma^2} (x - \mu)^2\right).$ #x分布
$y = {w}^\top \mathbf{x} + b + \epsilon \text{ where } \epsilon \sim \mathcal{N}(0, \sigma^2).$ #y分布
$P(y \mid{x}) = \frac{1}{\sqrt{2 \pi\sigma^2}} \exp\left(-\frac{1}{2 \sigma^2} (y -{w}^\top{x} - b)^2\right).$ #样本概率
给定参数w，b样本集的概率，其概率最大时的参数就是所需要的解
样本集概率: $P(y \mid X) = \prod_{i=1}^{n} p(y^{(i)}|{x}^{(i)}).$
概率最大时的解： $\operatorname*{argmax}_{{w}, b}P(y \mid X) =\operatorname*{argmax}_{{w}, b} \prod_{i=1}^{n} p(y^{(i)}|{x}^{(i)}).$
等价解: $\operatorname*{argmin}_{{w}, b}-\log P(y \mid X) = \operatorname*{argmin}_{{w}, b}\sum_{i=1}^n \frac{1}{2} \log(2 \pi \sigma^2) + \frac{1}{2 \sigma^2} \left(y^{(i)} - {w}^\top {x}^{(i)} - b\right)^2.$
等价解: $\operatorname*{argmin}_{{w}, b} -\log P(y \mid X) = \operatorname*{argmin}_{{w}, b}\frac{1}{2 } \left(y^{(i)} - {w}^\top {x}^{(i)} - b\right)^2.$ #即平方损失函数最小值

2. softmax 回归

2.1模型

x \in \{x_1,x_2,...,x_d\}

y \in \{(1, 0, 0), (0, 1, 0), (0, 0, 1)\}.

$\begin{split}\begin{aligned} o_1 &= x_1 w_{11} + x_2 w_{12} + x_3 w_{13} + x_4 w_{14} + b_1,\\ o_2 &= x_1 w_{21} + x_2 w_{22} + x_3 w_{23} + x_4 w_{24} + b_2,\\ o_3 &= x_1 w_{31} + x_2 w_{32} + x_3 w_{33} + x_4 w_{34} + b_3. \end{aligned}\end{split}$
$\hat{{y}} = {softmax}({o})\quad \text{where}\quad \hat{y}_j = \frac{\exp(o_j)}{\sum_k \exp(o_k)}.$ #使得 $o_1 \space o_2 \space o_3$ 转化后的值非负，和为1,符合概率

单样本: ${o} = {W} {x} + {b}$
样本集: ${O} = {W} {X} + {b}$
输出: $\hat{{Y}} ={softmax}(\mathbf{O})$
分类: $\operatorname*{argmax}_j \hat y_j = \operatorname*{argmax}_j o_j.$ #即选择概率最大的那个类

2.2损失函数：
与线性模型相同，最大化概率 $P(Y|X)$ 时的参数w，b即为解
$P(y^{(i)}|x^{(i)}) = \frac{\exp(o_j)}{\sum_{k} \exp(o_k)}$
$\operatorname*{argmax}_{{w}, b}P({Y} \mid{X}) = \operatorname*{argmax}_{{w}, b}\prod_{i=1}^n P({y}^{(i)} \mid{x}^{(i)}).$
等价: $\operatorname*{argmin }_{{w}, b}-\log P(\mathbf{Y} \mid \mathbf{X}) = \operatorname*{argmin }_{{w}, b}\sum_{i=1}^n -\log P({y}^{(i)} \mid \mathbf{x}^{(i)}) = \operatorname*{argmin }_{{w}, b}\sum_{i=1}^n l({y}^{(i)}, \hat{{y}}^{(i)}),$
交叉熵: $l({y}, \hat{{y}}) = - \sum_{j=1}^q y_j \log \hat{y}_j.$

2.3softmax 与微分
展开: $\begin{split}\begin{aligned} l(\mathbf{y}, \hat{\mathbf{y}}) &= - \sum_{j=1}^q y_j \log \frac{\exp(o_j)}{\sum_{k=1}^q \exp(o_k)} \\ &= \sum_{j=1}^q y_j \log \sum_{k=1}^q \exp(o_k) - \sum_{j=1}^q y_j o_j\\ &= \log \sum_{k=1}^q \exp(o_k) - \sum_{j=1}^q y_j o_j. \end{aligned}\end{split}$

对预测值进行偏微分: $\partial_{o_j} l(\mathbf{y}, \hat{\mathbf{y}}) = \frac{\exp(o_j)}{\sum_{k=1}^q \exp(o_k)} - y_j = \mathrm{softmax}(\mathbf{o})_j - y_j.$
偏微分可以区分出这个模型对不同预测值的概率

2.3交叉熵
熵: $H[P] = \sum_j - P(j) \log P(j).$
交叉熵:H(P,Q),即给定条件Q下P事件的信息量

2.1线性神经网络
1. 线性回归模型 1.1 模型单样本:#为参数，为样本特征样本集:#X形状为[n,d]，n个d个特征样本集合损...
独家连载 | 线性神经网络应用
线性神经网络应用 3.3线性神经网络 3.3.1线性神经网络介绍线性神经网络跟单层感知器非常类似，只是把单层感知...
激活函数总结
简介因为神经网络是线性组合,激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网...
深度学习-1
深度学习基础介绍单层神经网络：线性回归和softmax回归多层神经网络：多层感知机 1.线性回归例如房价预测，...
4. 深度学习-损失函数
我们知道神经网络是一种非线性模型，激活函数就是用来映射为非线性的，激活函数是保证神经网络非线性的关键。但是模型的参...
激活函数与损失函数
激活函数 1、作用：线性模型的表达能力不够，激活函数增加神经网络模型的非线性，提升神经网络模型表达能力（数据往往...
Pytorch_第九篇_神经网络中常用的激活函数
神经网络中常用的激活函数 Introduce 理论上神经网络能够拟合任意线性函数，其中主要的一个因素是使用了非线性...
第二章线性表
主要讨论线性结构 2.1 线性表的类型定义及基本操作线性表的类型定义线性表的基本操作
图像分类-线性分类I
深度神经网络将所需的神经网络以类似乐高搭积木的方式进行组合，共同训练。参数模型——线性分类器线性分类器是参数...
激活函数专题
激活函数用于神经网络的线性加权操作或池化操作之后，通过加入非线性因素来提高神经网络的表达能力。本专题用于整理和总结...