简书不支持数学公式,文章中有大量截图。更好的阅读体验,请点击:nbviewer
在第一课第二周的的课程中,ng以识别图片中是否有猫为例,简单介绍了一下二分类(Binary Classification)问题,以此引出对数几率回归算法(Logistic Regression)。Logistic Regression 是一种常用的二分类问题求解算法,通常用于处理监督学习(supervised learning)相关问题。在讲解LR(Logistic Regression)算法的过程中,ng穿插着介绍了梯度下降(Gradient Descent)、导数(derivatives)、计算图(computation graph)和向量化(Vectorization)。此外,ng还特意介绍了Python中的广播(Boradcasting)机制,一种有效提高计算效率的方法,也可以认为是向量化在python中的实现。
在这份笔记中,我将先记录导数(derivatives)、计算图(computation graph)、向量化(Vectorization)等基本概念,然后记录梯度下降(Gradient Descent)相关知识,最后记录Logistic Regression算法及案例 — 识别图片中是否有猫。
名词约定
名词 | 含义 |
---|---|
ng | Andrew Ng, 吴恩达老师 |
数据集 | 所有个案构成的集合 |
样本 | 数据集中的某一个案 |
特征 | 样本中的变量 |
1.1 - 导数(derivative)基础
直观上理解,导数的意义是计算函数 $f(x)$ 在 $x_0$ 处的斜率,即$y=f(x)$的变化速率。
导数的定义如下:
![](https://img.haomeiwen.com/i4604328/7cc7fc6ef8b5f71e.jpg)
基本求导法则:
![](https://img.haomeiwen.com/i4604328/55e963aafdf6c8f3.jpg)
函数的和、差、积、商的求导法则:
![](https://img.haomeiwen.com/i4604328/6991663508ec7ba5.jpg)
复合函数的求导法则:
![](https://img.haomeiwen.com/i4604328/67dbce7992cbb813.jpg)
注:以上图片来自于同济大学编写的《高等数学(第六版)》。
1.2 - 计算图(computation graph)
computatiom graph 是用有向箭头表示数据流动方向、方框表示计算内容的计算流程图,能够很好的描述算法的整个计算过程,对于理解算法很有帮助。ng给出的一个案例如下:
![](https://img.haomeiwen.com/i4604328/81aa3ef5341fce61.jpg)
1.3 - 向量化(vectorization)
向量化是提高计算效率的有效方法,其核心思想是将需要循环的累加、累乘等计算任务,通过合适的数据转换(如:转置、广播、堆叠等),变成矩阵或向量计算任务。
import numpy as np
x1 = np.linspace(1, 100, 10000)
x2 = np.linspace(1, 10, 10000)
# 假设要计算想x1与x2的乘积和
# 使用循环进行计算
%timeit -qo sum([x1[i]*x2[i] for i in range(x1.shape[0])])
<TimeitResult : 100 loops, best of 3: 5.26 ms per loop>
# 使用向量化方法进行计算
%timeit -qo np.dot(x1, x2)
<TimeitResult : 100000 loops, best of 3: 4.19 µs per loop>
比较以上两个计算耗时,可以发现:向量化计算x1与x2的乘积和比循环的方法块1000多倍!!!
2.1 - 梯度下降法(Gradient Descent)
梯度下降法(Gradient Descent)是一个最优化算法,通常也称为最速下降法,它将负梯度方向作为搜索方向,越接近最优化目标,步长越小,前进越慢,当步长小于一个给定的值或迭代次数达到设定的上限,迭代停止。
![](https://img.haomeiwen.com/i4604328/f6134154565f2086.png)
如果你想了解更多关于梯度下降法的知识,请点击 wiki - Gradient descent
2.2 - 随机梯度下降法(Stochastic Gradient Descent)
SGD的优势在于,每一次迭代中随机选取一个样本计算梯度,而不是使用全部样本。
SGD不需要记录哪些样例已经在前面的迭代过程中被访问过,有时候随机梯度下降能够直接优化期望风险,因为样例可能是随机从真正的分布中选取的。
如果你想了解更多关于随机梯度下降法的知识,请点击 wiki - Stochastic Gradient descent
3 - 对数几率回归(Logistic Regression)
事实上,Logistic Regression是一个简单的神经网络。由于 LR 本质上是一个线性回归模型,因此 LR 主要适用于线性可分(linearly separable)的二分类问题,也可以应用于线性可分的多分类问题(案例)。
ng在讲解Logistic Regression算法时,以图像中是否有猫这个经典的二分类问题为例,将整个算法流程做了介绍,并在作业中引导学习者实现了这一算法。
使用训练好的LR模型判断图片中是否有猫的过程如下图:
![](https://img.haomeiwen.com/i4604328/4c6281e306cc2d7e.png)
3.1 - 符号约定
![](https://img.haomeiwen.com/i4604328/58ea4b3de1a3160b.png)
3.2 - 基本概念
- Sigmoid函数
- 损失函数(loss function)
- 成本函数(cost function)
3.2.1 - Sigmoid函数
sigmoid函数是一个非线性函数,在机器学习和深度学习中都有应用,有时也称作对数几率函数(logistic function)。
![](https://img.haomeiwen.com/i4604328/4a0302be266a2bee.png)
sigmoid函数及其导数的Python实现如下:
import numpy as np
%matplotlib inline
def sigmoid(x):
"""
Compute the sigmoid of x
Arguments:
x -- A scalar or numpy array of any size
Return:
s -- sigmoid(x)
"""
s = 1.0 / (1.0 + np.exp(-x))
return s
def sigmoid_derivative(x):
"""
Compute the derivative of the sigmoid function with respect to its input x.
Arguments:
x -- A scalar or numpy array
Return:
ds -- Your computed gradient.
"""
s = sigmoid(x)
ds = s * (1 - s)
return ds
import matplotlib.pyplot as plt
x = np.linspace(-10, 10, 10000)
y_sigmoid = sigmoid(x)
plt.figure(figsize=(8,6))
plt.plot(x, y_sigmoid)
![](https://img.haomeiwen.com/i4604328/a1b9c229e8404a34.png)
3.2.2 - 损失函数(loss function)
![](https://img.haomeiwen.com/i4604328/8d940f102a376dd3.png)
3.2.3 - 成本函数(cost function)
![](https://img.haomeiwen.com/i4604328/554e754072a23b8b.png)
3.3 - LR模型训练过程
![](https://img.haomeiwen.com/i4604328/365f36b2add94ec4.png)
3.3.1 - 初始化参数
![](https://img.haomeiwen.com/i4604328/5ae433feb2a5a3f5.png)
3.3.2 - 计算当前参数对应的cost(成本)和gradient(梯度)
![](https://img.haomeiwen.com/i4604328/30566916355c411d.png)
3.3.3 使用梯度下降法更新参数
![](https://img.haomeiwen.com/i4604328/9dc974ab032eb00b.png)
满足以下任一条件,迭代停止:
- 迭代次数超过num_iterations
- 参数更新步长(梯度)小于一个给定的值
3.3.4 输出训练好的参数,得到LR模型
使用梯度下降法更新参数完成之后,可以得到最终的 W和 b,即LR模型确定。接下来,就可以使用这个模型去进行新样本的预测了。
网友评论