(Python)零起步数学+神经网络入门

作者: 阿里云云栖号 | 来源:发表于2018-12-21 13:55 被阅读58次

摘要： 手把手教你用(Python)零起步数学+神经网络入门！

在这篇文章中，我们将在Python中从头开始了解用于构建具有各种层神经网络（完全连接，卷积等）的小型库中的机器学习和代码。最终，我们将能够写出如下内容：

假设你对神经网络已经有一定的了解，这篇文章的目的不是解释为什么构建这些模型，而是要说明如何正确实现。

逐层

我们这里需要牢记整个框架：

将数据输入神经网络
在得出输出之前，数据从一层流向下一层
一旦得到输出，就可以计算出一个标量误差。
最后，可以通过相对于参数本身减去误差的导数来调整给定参数（权重或偏差）。
遍历整个过程。

最重要的一步是第四步。我们希望能够拥有任意数量的层，以及任何类型的层。但是如果修改/添加/删除网络中的一个层，网络的输出将会改变，误差也将改变，误差相对于参数的导数也将改变。无论网络架构如何、激活函数如何、损失如何，都必须要能够计算导数。

为了实现这一点，我们必须分别实现每一层。

每个层应该实现什么

我们可能构建的每一层（完全连接，卷积，最大化，丢失等）至少有两个共同点：输入和输出数据。

现在重要的一部分

假设给出一个层相对于其输出（∂E/∂Y）误差的导数，那么它必须能够提供相对于其输入（∂E/∂X）误差的导数。

è®°ä½�ï¼�Eæ�¯æ �é��ï¼�ä¸�ä¸ªæ�°å�ï¼�ï¼�Xå��Yæ�¯ç�©é�µã��

我们可以使用链规则轻松计算∂E/∂X的元素：

为什么是∂E/∂X？

对于每一层，我们需要相对于其输入的误差导数，因为它将是相对于前一层输出的误差导数。这非常重要，这是理解反向传播的关键！在这之后，我们将能够立即从头开始编写深度卷积神经网络！

花样图解

基本上，对于前向传播，我们将输入数据提供给第一层，然后每层的输出成为下一层的输入，直到到达网络的末端。

对于反向传播，我们只是简单使用链规则来获得需要的导数。这就是为什么每一层必须提供其输出相对于其输入的导数。

这可能看起来很抽象，但是当我们将其应用于特定类型的层时，它将变得非常清楚。现在是编写第一个python类的好时机。

抽象基类：Layer

所有其它层将继承的抽象类Layer会处理简单属性，这些属性是输入，输出以及前向和反向方法。

from abc import abstractmethod
# Base class
class Layer:
    def __init__(self):
        self.input = None;
        self.output = None;
        self.input_shape = None;
        self.output_shape = None;
    # computes the output Y of a layer for a given input X
    @abstractmethod
    def forward_propagation(self, input):
        raise NotImplementedError

    # computes dE/dX for a given dE/dY (and update parameters if any)
    @abstractmethod
    def backward_propagation(self, output_error, learning_rate):
        raise NotImplementedError

正如你所看到的，在back_propagation函数中，有一个我没有提到的参数，它是learning_rate。此参数应该类似于更新策略或者在Keras中调用它的优化器，为了简单起见，我们只是通过学习率并使用梯度下降更新我们的参数。

全连接层

现在先定义并实现第一种类型的网络层：全连接层或FC层。FC层是最基本的网络层，因为每个输入神经元都连接到每个输出神经元。

前向传播

每个输出神经元的值由下式计算：

使用矩阵，可以使用点积来计算每一个输出神经元的值：

当完成前向传播之后，现在开始做反向传播。

反向传播

正如我们所说，假设我们有一个矩阵，其中包含与该层输出相关的误差导数（∂E/∂Y）。我们需要：

1.关于参数的误差导数（∂E/∂W，∂E/∂B）

2.关于输入的误差导数（∂E/∂X）

首先计算∂E/∂W，该矩阵应与W本身的大小相同：对于ixj，其中i是输入神经元的数量，j是输出神经元的数量。每个权重都需要一个梯度：

使用前面提到的链规则，可以写出：

那么：

这就是更新权重的第一个公式！现在开始计算∂E/∂B：

同样，∂E/∂B需要与B本身具有相同的大小，每个偏差一个梯度。我们可以再次使用链规则：

得出结论：

现在已经得到∂E/∂W和∂E/∂B，我们留下∂E/∂X这是非常重要的，因为它将“作用”为之前层的∂E/∂Y。

再次使用链规则：

最后，我们可以写出整个矩阵：

æ��ä»¬å·²ç»�å¾�å�°FCå±�æ��é��ç��ä¸�ä¸ªå ¬å¼�ï¼�

编码全连接层

现在我们可以用Python编写实现：

from layer import Layer
import numpy as np

# inherit from base class Layer
class FCLayer(Layer):
    # input_shape = (1,i)   i the number of input neurons
    # output_shape = (1,j)  j the number of output neurons
    def __init__(self, input_shape, output_shape):
        self.input_shape = input_shape;
        self.output_shape = output_shape;
        self.weights = np.random.rand(input_shape[1], output_shape[1]) - 0.5;
        self.bias = np.random.rand(1, output_shape[1]) - 0.5;

    # returns output for a given input
    def forward_propagation(self, input):
        self.input = input;
        self.output = np.dot(self.input, self.weights) + self.bias;
        return self.output;

    # computes dE/dW, dE/dB for a given output_error=dE/dY. Returns input_error=dE/dX.
    def backward_propagation(self, output_error, learning_rate):
        input_error = np.dot(output_error, self.weights.T);
        dWeights = np.dot(self.input.T, output_error);
        # dBias = output_error

        # update parameters
        self.weights -= learning_rate * dWeights;
        self.bias -= learning_rate * output_error;
        return input_error;

激活层

到目前为止所做的计算都完全是线性的。用这种模型学习是没有希望的，需要通过将非线性函数应用于某些层的输出来为模型添加非线性。

现在我们需要为这种新类型的层（激活层）重做整个过程！

不用担心，因为此时没有可学习的参数，过程会快点，只需要计算∂E/∂X。

我们将f和f'分别称为激活函数及其导数。

前向传播

正如将看到的，它非常简单。对于给定的输入X，输出是关于每个X元素的激活函数，这意味着输入和输出具有相同的大小。

反向传播

给出∂E/∂Y，需要计算∂E/∂X

注意，这里我们使用两个矩阵之间的每个元素乘法（而在上面的公式中，它是一个点积）

编码实现激活层

激活层的代码非常简单：

from layer import Layer
# inherit from base class Layer
class ActivationLayer(Layer):
    # input_shape = (1,i)   i the number of input neurons
    def __init__(self, input_shape, activation, activation_prime):
        self.input_shape = input_shape;
        self.output_shape = input_shape;
        self.activation = activation;
        self.activation_prime = activation_prime;

    # returns the activated input
    def forward_propagation(self, input):
        self.input = input;
        self.output = self.activation(self.input);
        return self.output;

    # Returns input_error=dE/dX for a given output_error=dE/dY.
    # learning_rate is not used because there is no "learnable" parameters.
    def backward_propagation(self, output_error, learning_rate):
        return self.activation_prime(self.input) * output_error;

可以在单独的文件中编写一些激活函数以及它们的导数，稍后将使用它们构建ActivationLayer：

import numpy as np
# activation function and its derivative
def tanh(x):
    return np.tanh(x);

def tanh_prime(x):
    return 1-np.tanh(x)**2;

损失函数

到目前为止，对于给定的层，我们假设给出了∂E/∂Y（由下一层给出）。但是最后一层怎么得到∂E/∂Y？我们通过简单地手动给出最后一层的∂E/∂Y，它取决于我们如何定义误差。

网络的误差由自己定义，该误差衡量网络对给定输入数据的好坏程度。有许多方法可以定义误差，其中一种最常见的叫做MSE - Mean Squared Error：

其中y 和y分别表示期望的输出和实际输出。你可以将损失视为最后一层，它将所有输出神经元吸收并将它们压成一个神经元。与其他每一层一样，需要定义∂E/∂Y。除了现在，我们终于得到E！

以下是两个python函数，可以将它们放在一个单独的文件中，将在构建网络时使用。

import numpy as np

# loss function and its derivative
def mse(y_true, y_pred):
    return np.mean(np.power(y_true-y_pred, 2));

def mse_prime(y_true, y_pred):
    return 2*(y_pred-y_true)/y_true.size;

网络类

到现在几乎完成了！我们将构建一个Network类来创建神经网络，非常容易，类似于第一张图片！

我注释了代码的每一部分，如果你掌握了前面的步骤，那么理解它应该不会太复杂。

from layer import Layer

class Network:
    def __init__(self):
        self.layers = [];
        self.loss = None;
        self.loss_prime = None;

    # add layer to network
    def add(self, layer):
        self.layers.append(layer);

    # set loss to use
    def use(self, loss, loss_prime):
        self.loss = loss;
        self.loss_prime = loss_prime;

    # predict output for given input
    def predict(self, input):
        # sample dimension first
        samples = len(input);
        result = [];

        # run network over all samples
        for i in range(samples):
            # forward propagation
            output = input[i];
            for layer in self.layers:
                # output of layer l is input of layer l+1
                output = layer.forward_propagation(output);
            result.append(output);

        return result;

    # train the network
    def fit(self, x_train, y_train, epochs, learning_rate):
        # sample dimension first
        samples = len(x_train);

        # training loop
        for i in range(epochs):
            err = 0;
            for j in range(samples):
                # forward propagation
                output = x_train[j];
                for layer in self.layers:
                    output = layer.forward_propagation(output);

                # compute loss (for display purpose only)
                err += self.loss(y_train[j], output);

                # backward propagation
                error = self.loss_prime(y_train[j], output);
                # loop from end of network to beginning
                for layer in reversed(self.layers):
                    # backpropagate dE
                    error = layer.backward_propagation(error, learning_rate);

            # calculate average error on all samples
            err /= samples;
            print('epoch %d/%d   error=%f' % (i+1,epochs,err));

构建一个神经网络

最后！我们可以使用我们的类来创建一个包含任意数量层的神经网络！为了简单起见，我将向你展示如何构建......一个XOR。

from network import Network
from fc_layer import FCLayer
from activation_layer import ActivationLayer
from losses import *
from activations import *
import numpy as np

# training data
x_train = np.array([[[0,0]], [[0,1]], [[1,0]], [[1,1]]]);
y_train = np.array([[[0]], [[1]], [[1]], [[0]]]);

# network
net = Network();
net.add(FCLayer((1,2), (1,3)));
net.add(ActivationLayer((1,3), tanh, tanh_prime));
net.add(FCLayer((1,3), (1,1)));
net.add(ActivationLayer((1,1), tanh, tanh_prime));

# train
net.use(mse, mse_prime);
net.fit(x_train, y_train, epochs=1000, learning_rate=0.1);

# test
out = net.predict(x_train);
print(out);

同样，我认为不需要强调很多事情，只需要仔细训练数据，应该能够先获得样本维度。例如，对于xor问题，样式应为（4,1,2）。

结果

$ python xor.py epoch 1/1000 error=0.322980 epoch 2/1000 error=0.311174 epoch 3/1000 error=0.307195 ... epoch 998/1000 error=0.000243 epoch 999/1000 error=0.000242 epoch 1000/1000 error=0.000242 [array([[ 0.00077435]]), array([[ 0.97760742]]), array([[ 0.97847793]]), array([[-0.00131305]])]

卷积层

这篇文章开始很长，所以我不会描述实现卷积层的所有步骤。但是，这是我做的一个实现：

from layer import Layer
from scipy import signal
import numpy as np

# inherit from base class Layer
# This convolutional layer is always with stride 1
class ConvLayer(Layer):
    # input_shape = (i,j,d)
    # kernel_shape = (m,n)
    # layer_depth = output depth
    def __init__(self, input_shape, kernel_shape, layer_depth):
        self.input_shape = input_shape;
        self.input_depth = input_shape[2];
        self.kernel_shape = kernel_shape;
        self.layer_depth = layer_depth;
        self.output_shape = (input_shape[0]-kernel_shape[0]+1, input_shape[1]-kernel_shape[1]+1, layer_depth);
        self.weights = np.random.rand(kernel_shape[0], kernel_shape[1], self.input_depth, layer_depth) - 0.5;
        self.bias = np.random.rand(layer_depth) - 0.5;

    # returns output for a given input
    def forward_propagation(self, input):
        self.input = input;
        self.output = np.zeros(self.output_shape);

        for k in range(self.layer_depth):
            for d in range(self.input_depth):
                self.output[:,:,k] += signal.correlate2d(self.input[:,:,d], self.weights[:,:,d,k], 'valid') + self.bias[k];

        return self.output;

    # computes dE/dW, dE/dB for a given output_error=dE/dY. Returns input_error=dE/dX.
    def backward_propagation(self, output_error, learning_rate):
        in_error = np.zeros(self.input_shape);
        dWeights = np.zeros((self.kernel_shape[0], self.kernel_shape[1], self.input_depth, self.layer_depth));
        dBias = np.zeros(self.layer_depth);

        for k in range(self.layer_depth):
            for d in range(self.input_depth):
                in_error[:,:,d] += signal.convolve2d(output_error[:,:,k], self.weights[:,:,d,k], 'full');
                dWeights[:,:,d,k] = signal.correlate2d(self.input[:,:,d], output_error[:,:,k], 'valid');
            dBias[k] = self.layer_depth * np.sum(output_error[:,:,k]);

        self.weights -= learning_rate*dWeights;
        self.bias -= learning_rate*dBias;
        return in_error;

它背后的数学实际上并不复杂！这是一篇很好的文章，你可以找到∂E/∂W，∂E/∂B和∂E/∂X的解释和计算。

如果你想验证你的理解是否正确，请尝试自己实现一些网络层，如MaxPooling，Flatten或Dropout

GitHub库

你可以在GitHub库中找到用于该文章的完整代码。

本文作者：【方向】

阅读原文

本文为云栖社区原创内容，未经允许不得转载。

(Python)零起步数学+神经网络入门

逐层

每个层应该实现什么

现在重要的一部分

为什么是∂E/∂X？

花样图解

抽象基类：Layer

全连接层

前向传播

反向传播

编码全连接层

激活层

前向传播

反向传播

编码实现激活层

损失函数

网络类

构建一个神经网络

结果

卷积层

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

机器学习

我是程序员

大数据爬虫Python AI Sql

量化

人工智能

神经网络

(Python)零起步数学+神经网络入门

逐层

每个层应该实现什么

现在重要的一部分

为什么是∂E/∂X？

花样图解

抽象基类：Layer

全连接层

前向传播

反向传播

编码全连接层

激活层

前向传播

反向传播

编码实现激活层

损失函数

网络类

构建一个神经网络

结果

卷积层

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

机器学习

我是程序员

大数据 爬虫Python AI Sql

量化

人工智能

神经网络

大数据爬虫Python AI Sql