CNN识别手写数字

作者: 西埔 | 来源:发表于2018-05-18 13:35 被阅读0次

SkySeraph AI 实践到理论系列
2019-04-27
CNN识别手写数字
CNN实战-手写数字识别
cnn实现手写数字识别
02 CNN手写数字识别
基于tensorflow搭建一个复杂卷积神经网络模型（cifar
基于TensorFlow Slim库实现手写数字识别
Tensorflow MNIST for Android
CNN卷积算法应用---手写数字识别的两次训练结果展示

看网上的教程什么的，大部分都只是训练完就完事了，我想很多人和我一样关心怎么根据训练的结果去测试我们自己的图片，这部分真的好少看到。还有就是代码很多都没有解释，这是不友好的，毕竟看的都是新手，解释就很重了。
废话完
这篇文章你可以学到怎么写代码实现简单的CNN网络。包括数据读取，数据训练，模型存储，测试结果。大概需要20分钟读完。
第一部分：先上代码

导入库

from tensorflow.examples.tutorials.mnist import input_data
import tensorflow as tf
import numpy as np
from PIL import Image

数据源，这里的minstData 是在和代码同目录的文件夹。读取这个文件下的数据

需要先去下载mnist 数据放置minstData这个目录下，mnist数据需要到网上下载，因为国内被墙

mnist = input_data.read_data_sets("minstData", one_hot=True)

读取mnist中的训练图片，训练对应的标签，测试的图片，测试标签

trX, trY, teX, teY = mnist.train.images, mnist.train.labels, mnist.test.images, mnist.test.labels

定义训练输入数据的结构，28行28列的矩阵，即图片的像素大小

trX = trX.reshape(-1, 28, 28, 1)

同训练的输入结构

teX = teX.reshape(-1, 28, 28, 1)

定义输入，输出，的数据坑（就是先定义数据形状，后面会喂具体数据）

x = tf.placeholder(tf.float32, [None, 28, 28, 1])

这10是因为数字的结果只有0到9共10总情况

y = tf.placeholder(tf.float32, [None, 10])

定义权重的函数

def init_Weight(shape):
#根据输入的数据形状，随机生成对应的权重值
return tf.Variable(tf.random_normal(shape, stddev=0.01))

这里初始化权重，2个3代表的是卷积核实3*3的数组。

第一层权重的输入是1因为训练图片的颜色是黑白只有一个通道。

为什么是32，这个其实无所谓的，32代表的是有32个3*3的数组去和输入的数据卷

积。每个卷积代表获取一种属性，32也就是获取32种图片的特性，当然也可以是其#他的数量比如20

后面为啥子卷积核的数量会变2倍？告诉你这是真几把坑。为嘛，因为池化

池化后图片会变小，呃呃呃，我也不知道为嘛，感觉是一种规定，全部设置为

32也是OK 的，但是注意一点前后的数量要对应。

12844是为嘛呢？128是代表卷积核的数量，44是应为这个是他图片大小有2828--1414--77--4*4池化的大小的为2

w = init_Weight([3, 3, 1, 32])
w2 = init_Weight([3, 3, 32, 64])
w3 = init_Weight([3, 3, 64, 128])
w4 = init_Weight([128 * 4 * 4, 625]) # 全连接层
wo = init_Weight([625, 10])

这里定义CNN网络模型了

def mode(X, w, w2, w3, w4, wo, p_keep_conv, p_hide_conv):
#2828--1414,池化，“SAME”是卷积保持原来的大小。
l1a = tf.nn.relu(tf.nn.conv2d(X, w, strides=[1, 1, 1, 1], padding="SAME"))
l1 = tf.nn.max_pool(l1a, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding="SAME")
l1 = tf.nn.dropout(l1, p_keep_conv)

l2a = tf.nn.relu(tf.nn.conv2d(l1, w2, strides=[1, 1, 1, 1], padding="SAME"))
l2 = tf.nn.max_pool(l2a, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding="SAME")
l2 = tf.nn.dropout(l2, p_keep_conv)

l3a = tf.nn.relu(tf.nn.conv2d(l2, w3, strides=[1, 1, 1, 1], padding="SAME"))
l3 = tf.nn.max_pool(l3a, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding="SAME")
l3 = tf.reshape(l3, [-1, w4.get_shape().as_list()[0]])
l3 = tf.nn.dropout(l3, p_keep_conv)

# 全连接层
l4 = tf.nn.relu(tf.matmul(l3, w4))
l4 = tf.nn.dropout(l4, p_hide_conv)

# 输出层
lo = tf.matmul(l4, wo)
return lo

保存的神经元数量

p_keep_conv = tf.placeholder(tf.float32)

隐藏的神经元数量

p_hide_conv = tf.placeholder(tf.float32)

得到训练结果

py_x = mode(x, w, w2, w3, w4, wo, p_keep_conv, p_hide_conv)

定义损失函数

coss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=py_x, labels=y))

训练

train_op = tf.train.RMSPropOptimizer(0.01, 0.9).minimize(coss)
predict_op = tf.argmax(py_x, 1)

batch_size = 128
test_size = 256

获取保存的对象

save=tf.train.Saver()

开始这里标记为A

with tf.Session() as sess:
#初始化所有对象
tf.global_variables_initializer().run()
for i in range(100):
training_batch = zip(range(0, len(trX), batch_size),
range(batch_size, len(trX) + 1, batch_size))
for start, end in training_batch:
sess.run(train_op, feed_dict={x: trX[start:end], y: trY[start:end],
p_keep_conv: 0.8, p_hide_conv: 0.5})
test_indices = np.arange(len(teX))
np.random.shuffle(test_indices)
test_indices = test_indices[0:test_size]
print(i, np.mean(np.argmax(teY[test_indices], axis=1) ==
sess.run(predict_op, feed_dict={x: teX[test_indices],
p_keep_conv: 1.0,
p_hide_conv: 1.0})))
#模型保存到jiangf这个目录下，需要自己创建
save.save(sess,"jiangf/test.ckpt")

结束这里标记为A

---------------上面的是训练并保存模型----------------------

---------读取保存的模型并识别自己的图片--------------

识别自己我图片，先将我标记的A区域注释，已经训练好了，现在不需要训练了

注释掉，下面开始识别我们的图片

with tf.Session() as sess2:
#恢复保存的模型
save.restore(sess2, "jiangf/test.ckpt")
#读取pic 目录下预先存好的图片
image_path = "pic/train6.bmp"
keep_prob = tf.placeholder(tf.float32, [1, 10])
img = Image.open(image_path).convert('L') # 灰度图(L)
img_array=np.array(img).reshape([-1,28,28,1])
print(img_array)
y = sess2.run(predict_op, feed_dict={x: img_array, p_keep_conv:
1.0,p_hide_conv: 1.0})
print('Predict digit', y) # 输出结果。

------------------------恭喜你看完了，感谢------------------

网友评论

我爱编程

本文标题：CNN识别手写数字

本文链接：https://www.haomeiwen.com/subject/axowdftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！