美文网首页
2.1线性神经网络

2.1线性神经网络

作者: 纵春水东流 | 来源:发表于2021-04-25 16:46 被阅读0次

1. 线性回归模型

1.1 模型
单样本:\hat{y} = w_1 x_1 + ... + w_d x_d + b#w_{1-d},b为参数,x_{1-d}为样本特征
样本集:{\hat{y}} = {X} {w} + b#X形状为[n,d],n个d个特征样本集合

损失函数l^{(i)}(w, b) = \frac{1}{2} \left(\hat{y}^{(i)} - y^{(i)}\right)^2.
最佳参数:{w}^*, b^* = \operatorname*{argmin}_{{w}, b}\ L({w}, b).#最佳参数为损失函数最小值时的参数

1.2参数的解法
解析解: {w}^* = ( X^\top X)^{-1} X^\top {y}.
梯度下降: ({w},b)\leftarrow ({w},b) - \frac{\eta}{|{B}|} \sum_{i \in{B}} \partial_{({w},b)} l^{(i)}({w},b).

1.3平方损失的由来
假设:x属于正态分布、y也属于正态分布
p(x) = \frac{1}{\sqrt{2 \pi\sigma^2}} \exp\left(-\frac{1}{2 \sigma^2} (x - \mu)^2\right).#x分布
y = {w}^\top \mathbf{x} + b + \epsilon \text{ where } \epsilon \sim \mathcal{N}(0, \sigma^2).#y分布
P(y \mid{x}) = \frac{1}{\sqrt{2 \pi\sigma^2}} \exp\left(-\frac{1}{2 \sigma^2} (y -{w}^\top{x} - b)^2\right).#样本概率
给定参数w,b样本集的概率,其概率最大时的参数就是所需要的解
样本集概率:P(y \mid X) = \prod_{i=1}^{n} p(y^{(i)}|{x}^{(i)}).
概率最大时的解:\operatorname*{argmax}_{{w}, b}P(y \mid X) =\operatorname*{argmax}_{{w}, b} \prod_{i=1}^{n} p(y^{(i)}|{x}^{(i)}).
等价解:\operatorname*{argmin}_{{w}, b}-\log P(y \mid X) = \operatorname*{argmin}_{{w}, b}\sum_{i=1}^n \frac{1}{2} \log(2 \pi \sigma^2) + \frac{1}{2 \sigma^2} \left(y^{(i)} - {w}^\top {x}^{(i)} - b\right)^2.
等价解: \operatorname*{argmin}_{{w}, b} -\log P(y \mid X) = \operatorname*{argmin}_{{w}, b}\frac{1}{2 } \left(y^{(i)} - {w}^\top {x}^{(i)} - b\right)^2.#即平方损失函数最小值

2. softmax 回归

2.1模型


x \in \{x_1,x_2,...,x_d\}
y \in \{(1, 0, 0), (0, 1, 0), (0, 0, 1)\}.

\begin{split}\begin{aligned} o_1 &= x_1 w_{11} + x_2 w_{12} + x_3 w_{13} + x_4 w_{14} + b_1,\\ o_2 &= x_1 w_{21} + x_2 w_{22} + x_3 w_{23} + x_4 w_{24} + b_2,\\ o_3 &= x_1 w_{31} + x_2 w_{32} + x_3 w_{33} + x_4 w_{34} + b_3. \end{aligned}\end{split}
\hat{{y}} = {softmax}({o})\quad \text{where}\quad \hat{y}_j = \frac{\exp(o_j)}{\sum_k \exp(o_k)}.#使得o_1 \space o_2 \space o_3转化后的值非负,和为1,符合概率

单样本:{o} = {W} {x} + {b}
样本集:{O} = {W} {X} + {b}
输出:\hat{{Y}} ={softmax}(\mathbf{O})
分类:\operatorname*{argmax}_j \hat y_j = \operatorname*{argmax}_j o_j.#即选择概率最大的那个类

2.2损失函数:
与线性模型相同,最大化概率P(Y|X)时的参数w,b即为解
P(y^{(i)}|x^{(i)}) = \frac{\exp(o_j)}{\sum_{k} \exp(o_k)}
\operatorname*{argmax}_{{w}, b}P({Y} \mid{X}) = \operatorname*{argmax}_{{w}, b}\prod_{i=1}^n P({y}^{(i)} \mid{x}^{(i)}).
等价:\operatorname*{argmin }_{{w}, b}-\log P(\mathbf{Y} \mid \mathbf{X}) = \operatorname*{argmin }_{{w}, b}\sum_{i=1}^n -\log P({y}^{(i)} \mid \mathbf{x}^{(i)}) = \operatorname*{argmin }_{{w}, b}\sum_{i=1}^n l({y}^{(i)}, \hat{{y}}^{(i)}),
交叉熵:l({y}, \hat{{y}}) = - \sum_{j=1}^q y_j \log \hat{y}_j.

2.3softmax 与微分
展开:\begin{split}\begin{aligned} l(\mathbf{y}, \hat{\mathbf{y}}) &= - \sum_{j=1}^q y_j \log \frac{\exp(o_j)}{\sum_{k=1}^q \exp(o_k)} \\ &= \sum_{j=1}^q y_j \log \sum_{k=1}^q \exp(o_k) - \sum_{j=1}^q y_j o_j\\ &= \log \sum_{k=1}^q \exp(o_k) - \sum_{j=1}^q y_j o_j. \end{aligned}\end{split}

对预测值进行偏微分:\partial_{o_j} l(\mathbf{y}, \hat{\mathbf{y}}) = \frac{\exp(o_j)}{\sum_{k=1}^q \exp(o_k)} - y_j = \mathrm{softmax}(\mathbf{o})_j - y_j.
偏微分可以区分出这个模型对不同预测值的概率

2.3交叉熵
熵:H[P] = \sum_j - P(j) \log P(j).
交叉熵:H(P,Q),即给定条件Q下P事件的信息量

相关文章

  • 2.1线性神经网络

    1. 线性回归模型 1.1 模型单样本:#为参数,为样本特征样本集:#X形状为[n,d],n个d个特征样本集合 损...

  • 独家连载 | 线性神经网络应用

    线性神经网络应用 3.3线性神经网络 3.3.1线性神经网络介绍 线性神经网络跟单层感知器非常类似,只是把单层感知...

  • 激活函数总结

    简介 因为神经网络是线性组合,激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网...

  • 深度学习-1

    深度学习基础 介绍单层神经网络:线性回归和softmax回归多层神经网络:多层感知机 1.线性回归 例如房价预测,...

  • 4. 深度学习-损失函数

    我们知道神经网络是一种非线性模型,激活函数就是用来映射为非线性的,激活函数是保证神经网络非线性的关键。但是模型的参...

  • 激活函数与损失函数

    激活函数 1、作用: 线性模型的表达能力不够,激活函数增加神经网络模型的非线性,提升神经网络模型表达能力(数据往往...

  • Pytorch_第九篇_神经网络中常用的激活函数

    神经网络中常用的激活函数 Introduce 理论上神经网络能够拟合任意线性函数,其中主要的一个因素是使用了非线性...

  • 第二章 线性表

    主要讨论线性结构 2.1 线性表的类型定义及基本操作 线性表的类型定义 线性表的基本操作

  • 图像分类-线性分类I

    深度神经网络 将所需的神经网络以类似乐高搭积木的方式进行组合,共同训练。 参数模型——线性分类器 线性分类器是参数...

  • 激活函数专题

    激活函数用于神经网络的线性加权操作或池化操作之后,通过加入非线性因素来提高神经网络的表达能力。本专题用于整理和总结...

网友评论

      本文标题:2.1线性神经网络

      本文链接:https://www.haomeiwen.com/subject/qiplrltx.html