学习笔记,可能有些谬误,请批判性阅读。
凡事由简入繁,搞清楚最为basic的NN(神经网络),就像拥有了一把可以随身携带的匕首,遇事有防身的,再去见识各种各样的NN,不怕。
结构
我们构建一个最简单的NN,来进行一个二分类预测。
具体地任务是,用户是否会网购猫砂的二分类预测。每个用户是一个样本,刻画用户有三维特征:用户是否拥有一只猫、是否喝进口饮料、是否浏览过我们的网站。用这三维特征表示一个用户,经过NN后,产出一个概率值,进行该用户是否会购买猫砂的二分类预测。
仅有一个隐层的神经网络输入层
输入m个样本,每个样本是一个三维向量,于是输入:
可以看到,有3个神经元,分别代表每个样本的每个维度值。
隐层
这一层有4个神经元,与进行了全连接,也就是的4个神经元与的3个神经元两两相连。因此,我们管叫做全连接层。
这样,从映射到需要一个3*4的连接矩阵。
NN中需要非线性激活函数(active),来引入非线性因素,使NN在前向传导的过程中可以进行复杂的映射。(如果没有非线性映射,多层网络的线性映射,单层线性映射就可以实现,深度网络也成为无稽之谈。)
输出层
输出层只有一个神经元,因此,从映射到的全连接,依仗一个4*1的连接矩阵实现。
同样的,进行非线性激活。
这样,输入经过隐层,来到输出层,最后输出的结果为:
对每个样本,输出结果为的向量。
落地
上面介绍的实际上是前向传播的过程。后向传播的细节,这里就不介绍了,大家可以看引用[1]仔细研究。
后向传播,最广泛使用的是梯度下降法。根据误差,通过求导计算各参数的变化量。具体怎么实现,需要推导求导公式等等,从代码里再理解一下吧。[手动捂脸]
import numpy as np
# sigmoid函数一阶导数:f'(x)=f(x)(1-f(x))
def derive(x):
return x * (1 - x)
# 激活函数,l1 & l2都采用sigmoid
def active(x):
return 1 / (1 + exp(x))
# 输入4*3*1,这里m=4
x = [
[1, 0, 1],
[1, 1, 1],
[1, 0, 0],
[0, 0, 1],
]
# 真实值4*1*1,这里m=4
y = [[1], [0], [1], [0]]
# 连接矩阵随机初始化
np.random.seed(1)
syn0 = np.random.random((3,4))
syn1 = np.random.random((4,1))
l0 = x
for j in range(0, 60000):
# 前向传导
l1 = active(np.dot(l0, syn0))
l2 = active(np.dot(l1, syn1))
# 后向传播
l2_error = y - l2
l2_delta = l2_error * deriv(l2)
l1_error = l2_delta.dot(syn1.T)
l1_delta = l1_error * deriv(l1)
# 更新参数
syn1 += l1.T.dot(l2_delta)
syn0 += l0.T.dot(l1_delta)
# 训练完成,打印当前预测值。
print l2
网友评论