1-2 神经网络基础

作者: 温素年 | 来源:发表于2018-11-07 10:55 被阅读0次

1-2 神经网络基础
datawhale-task05（卷积神经网络基础；leNet；
神经网络介绍
神经网络（一）
神经网络（二）
人工智能教程 - 目录
神经网络的交换格式(3)
基于Tensorflow实现CNN对MNIST分类
《神经网络基础与应用》 Chapter2 人工神经网络基础
LSTM原理及生成藏头诗（Python）

吴恩达《神经网络和深度学习》课程笔记

以监督学习为例

1. 训练集的表达

一组训练样本：

m组训练样本的集合：

把m组训练样本合并，形成训练矩阵：

2. logistic回归

给定输入x，输出结果y^，其中：

y^的计算公式如下：

3. 损失函数的表达

Loss function：一组训练样本的损失（下图为交叉熵损失，神经网络中最常用的损失函数）

Cost function：对于同一组参数，所有训练样本的损失的平均值

训练网络时，要找到一组参数使 Cost function 尽量小。

采用梯度下降法：每次是参数值往使 Cost function 减小的方向移动。

为什么损失函数要写成上述形式？

目标是上式最大，所以构建损失函数如上述形式。

4. 梯度的反向传播

一个简单的计算流程图

如果a增加一个很小的增量，这个增量是从前往后传播的，先传递到v，再传递到a。
而在计算梯度时应该从后往前计算，例如 dJ/da=dJ/dv * dv/da。
计算dJ/db时，将c带入当前值就可以了。

5. Logistic回归的梯度下降法

伪代码描述：

J=0; dw1=0; dw2=0; db=0
for i = 1 to m
    z(i) = w.T*x(i) + b
    a(i) = sigmoid(z(i))
    J += -(y(i)*log(a(i)) + (1-y(i))*log(1-a(i)))
    dz(i) = a(i) - y(i)
    for j = 1 to n
        dwj += xj(i) * dz(i)
    db += dz(i)
J /= m
dw1 /= m; dw2 /= m; db /= m

w1 := w1 - c*dw1
w2 := w2 - c*dw2
b := b - c*db

其中，m 代表了训练样本的个数，j 代表了有多少个特征。例如 j=2，则 z=w₁^Tx₁+w₂^Tx₂+b。

所以，这里的 x₁⁽¹⁾ 和 x₂⁽¹⁾ 只是数字，合起来是向量 x⁽¹⁾，后面的 dw_j 也是数字。把它们都合并成向量就可以去掉这一层 for 循环了。

使用向量化的方法（基于Python的numpy）：

J=0; db=0
dw = np.zeros((nx,1))

Z = w.T*X + b
A = sigmoid(Z) 
dZ = A - Y
dw = X*dZ.T / m
db = np.sum(dZ) / m

w := w - c*dw
b := b - c*db

尽量不用for循环，而用Python内置的向量计算函数。因为向量计算函数是并行运行的，可以大大提高计算速度。

6. 使用Python向量的注意事项

Python中的broadcast机制

(m,n) 的矩阵加（或减、乘、除）一个 (m,1) 的矩阵，Python 会将其复制为 n 列，再计算；
(m,n) 的矩阵加（或减、乘、除）一个 (1,n) 的矩阵，Python 会将其复制为 m 行，再计算；
(1,n) 的矩阵加（或减、乘、除）一个实数 r，Python 会将其复制为 n 列，再计算；
(m,1) 的矩阵加（或减、乘、除）一个实数 r，Python 会将其复制为 m 行，再计算。

生成一个随机初始化的向量

a = np.random.randn(5)
生成的是秩为1的数组，既不是行向量也不是列向量
a = np.random.randn(5,1)
生成的是5*1的列向量
a = np.random.randn(1,5)
生成的是1*5的行向量

网友评论

本文标题：1-2 神经网络基础

本文链接：https://www.haomeiwen.com/subject/sqfkxqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！