学习笔记 — 神经网络和深度学习（ng）_第二周

作者: binzeng | 来源:发表于2017-09-25 13:21 被阅读0次

学习笔记 — 神经网络和深度学习（ng）_第二周
TensorFlow 深度学习中文第二版（初稿）
对话深度学习1：Neural Networks 神经网络
DeepLearningAI 学习笔记 1.1 深度学习概论
学习笔记 — 神经网络和深度学习（ng）_第四周
学习笔记 — 神经网络和深度学习（ng）_第三周
神经网络和深度学习笔记（ Andrew Ng）
统计学习方法笔记(第二章个人笔记)
keras学习-nlp (1)
《Python神经网络》5——机器学习简介

简书不支持数学公式，文章中有大量截图。更好的阅读体验，请点击：nbviewer

在第一课第二周的的课程中，ng以识别图片中是否有猫为例，简单介绍了一下二分类（Binary Classification）问题，以此引出对数几率回归算法(Logistic Regression)。Logistic Regression 是一种常用的二分类问题求解算法，通常用于处理监督学习（supervised learning）相关问题。在讲解LR（Logistic Regression）算法的过程中，ng穿插着介绍了梯度下降（Gradient Descent）、导数（derivatives）、计算图（computation graph）和向量化（Vectorization）。此外，ng还特意介绍了Python中的广播（Boradcasting）机制，一种有效提高计算效率的方法，也可以认为是向量化在python中的实现。

在这份笔记中，我将先记录导数（derivatives）、计算图（computation graph）、向量化（Vectorization）等基本概念，然后记录梯度下降（Gradient Descent）相关知识，最后记录Logistic Regression算法及案例 — 识别图片中是否有猫。

名词约定

名词	含义
ng	Andrew Ng, 吴恩达老师
数据集	所有个案构成的集合
样本	数据集中的某一个案
特征	样本中的变量

1.1 - 导数（derivative）基础

直观上理解，导数的意义是计算函数 $f(x)$ 在 $x_0$ 处的斜率，即$y=f(x)$的变化速率。
导数的定义如下：

基本求导法则：

函数的和、差、积、商的求导法则：

复合函数的求导法则：

注：以上图片来自于同济大学编写的《高等数学（第六版）》。

1.2 - 计算图（computation graph）

computatiom graph 是用有向箭头表示数据流动方向、方框表示计算内容的计算流程图，能够很好的描述算法的整个计算过程，对于理解算法很有帮助。ng给出的一个案例如下：

1.3 - 向量化（vectorization）

向量化是提高计算效率的有效方法，其核心思想是将需要循环的累加、累乘等计算任务，通过合适的数据转换（如：转置、广播、堆叠等），变成矩阵或向量计算任务。

import numpy as np

x1 = np.linspace(1, 100, 10000)
x2 = np.linspace(1, 10, 10000)

# 假设要计算想x1与x2的乘积和

# 使用循环进行计算
%timeit -qo sum([x1[i]*x2[i] for i in range(x1.shape[0])])

<TimeitResult : 100 loops, best of 3: 5.26 ms per loop>

# 使用向量化方法进行计算
%timeit -qo np.dot(x1, x2)

<TimeitResult : 100000 loops, best of 3: 4.19 µs per loop>

比较以上两个计算耗时，可以发现：向量化计算x1与x2的乘积和比循环的方法块1000多倍！！！

2.1 - 梯度下降法（Gradient Descent）

梯度下降法（Gradient Descent）是一个最优化算法，通常也称为最速下降法，它将负梯度方向作为搜索方向，越接近最优化目标，步长越小，前进越慢，当步长小于一个给定的值或迭代次数达到设定的上限，迭代停止。

如果你想了解更多关于梯度下降法的知识，请点击 wiki - Gradient descent

2.2 - 随机梯度下降法（Stochastic Gradient Descent）

SGD的优势在于，每一次迭代中随机选取一个样本计算梯度，而不是使用全部样本。

SGD不需要记录哪些样例已经在前面的迭代过程中被访问过，有时候随机梯度下降能够直接优化期望风险，因为样例可能是随机从真正的分布中选取的。

如果你想了解更多关于随机梯度下降法的知识，请点击 wiki - Stochastic Gradient descent

3 - 对数几率回归（Logistic Regression）

事实上，Logistic Regression是一个简单的神经网络。由于 LR 本质上是一个线性回归模型，因此 LR 主要适用于线性可分（linearly separable）的二分类问题，也可以应用于线性可分的多分类问题(案例)。

ng在讲解Logistic Regression算法时，以图像中是否有猫这个经典的二分类问题为例，将整个算法流程做了介绍，并在作业中引导学习者实现了这一算法。

使用训练好的LR模型判断图片中是否有猫的过程如下图：

3.1 - 符号约定

3.2 - 基本概念

Sigmoid函数

损失函数（loss function）

成本函数（cost function）

3.2.1 - Sigmoid函数

sigmoid函数是一个非线性函数，在机器学习和深度学习中都有应用，有时也称作对数几率函数（logistic function）。

sigmoid函数及其导数的Python实现如下：

import numpy as np
%matplotlib inline

def sigmoid(x):
    """
    Compute the sigmoid of x

    Arguments:
    x -- A scalar or numpy array of any size

    Return:
    s -- sigmoid(x)
    """  
    s = 1.0 / (1.0 + np.exp(-x)) 
    return s


def sigmoid_derivative(x):
    """
    Compute the derivative of the sigmoid function with respect to its input x.
    
    Arguments:
    x -- A scalar or numpy array

    Return:
    ds -- Your computed gradient.
    """
    s = sigmoid(x)
    ds = s * (1 - s)    
    return ds

import matplotlib.pyplot as plt

x = np.linspace(-10, 10, 10000)
y_sigmoid = sigmoid(x)

plt.figure(figsize=(8,6))
plt.plot(x, y_sigmoid)

3.2.2 - 损失函数（loss function）

3.2.3 - 成本函数（cost function）

3.3 - LR模型训练过程

3.3.1 - 初始化参数

3.3.2 - 计算当前参数对应的cost（成本）和gradient（梯度）

3.3.3 使用梯度下降法更新参数

满足以下任一条件，迭代停止：

迭代次数超过num_iterations
参数更新步长（梯度）小于一个给定的值

3.3.4 输出训练好的参数，得到LR模型

使用梯度下降法更新参数完成之后，可以得到最终的 W和 b，即LR模型确定。接下来，就可以使用这个模型去进行新样本的预测了。

其他资源

网友评论

本文标题：学习笔记 — 神经网络和深度学习（ng）_第二周

本文链接：https://www.haomeiwen.com/subject/ahorextx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！