美文网首页
神经网络中的梯度计算以及python代码实现

神经网络中的梯度计算以及python代码实现

作者: Thunder_Storm | 来源:发表于2020-02-15 09:19 被阅读0次

在学习斯坦福大学的 cs231遇到了不少问题,这一篇主要是来自己对于神经网络中的梯度计算和其实现的python代码。

目前我所学习到的有关梯度的计算的方法有两种,第一种是根据网络的反向传播,可以得到网络输出的导数dout与输入dx,dw,db的关系(这里所说的神经网络是比较简单的全连接神经网络,激活层为sotmax或者relu等函数),这一部分将在下篇blog里进行推导计算;第二种就是利用基本公式(一个点号代表求一阶导数):

f(x)'=\lim_{h\rightarrow 0}\frac{f(x+h)-f(x-h)}{2h}

一个简单的神经网络结构如下图所示(具体的不多解释):

简单神经网络结构

下面贴出代码:

import numpy as np
from random import randrange

def eval_numerical_gradient(f,x,verbose=True,h=0.0001):
  #计算f在x的梯度,其中f是接收一个参数的函数,返回一个数字,如loss
  fx = f(x)
  grad = np.zeros_like(x)
  it = np.nditer(x,flags=['multi_index'],op_flags=['readwrite'])
  #当迭代没有结束的时候
  while not it.finished:
    ix = it.multi_index
    oldval = x[ix]
    x[ix] = oldval+h
    f1 = f(x)
    x[ix] = oldval-h
    f2 = f(x)
    grad[ix] = (f1-f2)/(2*h)
    if verbose:
      print(ix,grad[ix])
    it.iternext()
  return grad

def eval_numerical_gradient_array(f,x,df,h=1e-5):
  #f为接受numpy数组并返回numpy数组的函数,并求f在x的梯度
  grad = np.zeros_like(x)
  it = np.nditer(x,flags=['multi_index'],op_flags=['readwrite'])
  while not it.finished:
    ix = it.multi_index
    oldval = x[ix]
    x[ix] = oldval + h
    pos = f(x).copy()
    x[ix] = oldval - h
    neg = f(x).copy()
    x[ix] = oldval
    
    grad[ix] = np.sum((pos - neg) * df) / (2 * h)
    it.iternext()
  return grad

上述的两个函数都是计算导数,其中第一个函数eval_numerical_gradient是用来计算简单函数的导数,第二个函数eval_numerical_gradient_array则是用来计算矩阵中对应元素的导数。第一个函数好理解,现在来看第二个函数,原理一样,但是会发现在计算导数的时候分子多乘了一个df,这个是为什么?

#eval_numerical_gradien
grad[ix] = (f1-f2)/(2*h)
#eval_numerical_gradient_array
grad[ix] = np.sum((pos - neg) * df) / (2 * h)

下面给出矩阵求导的公式d{x_{ij}}^{ } = \frac{\partial L}{\partial x_{ij}}=\sum_{p}^{b}\sum_{q}^{a}\frac{\partial L}{\partial y_{pq}}\frac{\partial y_{pq}}{\partial x_{ij}}公式来源:https://blog.csdn.net/xiezongsheng1990/article/details/86709575

个人觉得这个公式不太好理解,接下来详细说明矩阵对元素的求导
矩阵中某个元素的梯度,分为两个方向:x和y,因此矩阵某个元素的梯度也就由两部分相加而成。

image.png
在这个例子里,上面矩阵导数的公式可以简化为:即为该元素在y1和y2方向上的导数和。
grad[ix] = np.sum((pos - neg) * df) / (2 * h)

在这条执行语句中,公式中的{\partial y_{k}}即为元素在x和y方向上所对应的行向量和列向量的变化,因为只有一个元素变化了2h,其他元素都没有变化,所以{\partial y_{k}}=2h,df则为\frac{\partial y_{k}}{\partial x_{ij}}

个人理解:

矩阵对梯度的求导本质上是一个复合求导,即矩阵先对行/列向量求导,行/列向量最后再对该元素进行求导。

下篇预告:神经网络导数的推导并计算与本篇公式所得到的导数之间的误差

相关文章

  • 神经网络中的梯度计算以及python代码实现

    在学习斯坦福大学的 cs231遇到了不少问题,这一篇主要是来自己对于神经网络中的梯度计算和其实现的python代码...

  • 神经网络实践之梯度检验

    前言 在机器学习的应用层面中,学习了神经网络中梯度检验的相关知识,本篇文章,将会用python实现梯度检验并将其应...

  • 神经网络的参数梯度推导以及python代码实现

    此篇博客承接上一篇的内容,在上一篇博客中,通过基本定义以及公式实现了对一个简单网络的梯度求解,在这篇博客将,将会更...

  • 梯度寻优

    参考:梯度下降算法的Python实现 批量梯度下降: 在上述代码中,nb_epochs为迭代次数;data是所有的...

  • 深度学习开发框架PyTorch(3)-- Autograd

    PyTorch与Python、Numpy等最大的区别在于自动求导机制,这种机制为神经网络训练过程中的梯度计算而特别...

  • 梯度检验

    为何进行梯度检验? 神经网络算法使用反向传播计算目标函数关于每个参数的梯度,可以看做解析梯度。由于计算过程中涉及到...

  • tf2矩阵分解

    学习使用tf2原始的梯度,计算矩阵分解;和学习保存权重和读取权重 基于公式,计算梯度image.png 实现代码 ...

  • 第九章 深度学习

    神经网络基础 1.人工神经网络人工神经网络是一种分层计算模型。通过反向传播的梯度下降实现网络参数的学习。2.神经元...

  • 2018-02-17 神经网络基础(二)

    计算图和计算图的导数计算 前向传播计算出神经网络的输出 反向传播计算梯度或导数 logistic回归中的梯度下降 ...

  • DeepLearning学习笔记#Logistic Regres

    概述 本文主要内容:如何利用Python的来实现Logistic函数。包括:初始化、计算代价函数和梯度、使用梯度下...

网友评论

      本文标题:神经网络中的梯度计算以及python代码实现

      本文链接:https://www.haomeiwen.com/subject/uefefhtx.html