数据下载
- 数据样式(大小32*32)
- 下载下面目录下的digits.zip
手写数字文件下载地址
kNN算法介绍
- 存在一个训练样本,且样本的每一个数据都有对应的标签
- 输入没有标签的新数据后根据算法提取样本集中最相似即最近邻的数据,得到该数据的标签
- 一般来说只选择样本数据前k个最相似的数据(k通常<=20)
公式
提取最近邻数据的公式:
距离计算公式
- 根据此公式构建分类器
伪代码:
- 计算已知类别数据集中的点与当前点之间的距离
- 按照距离递增次序排序
- 选取与当前点距离最小的k个点
- 确定前k个点所在类别的出现频率
- 返回前k个点出现频率最高的类别作为当前点的预测分类
- 需要注意的点在代码中都有标注
kNN.py
import numpy as np
# 传入的label和dataSet是一一对应的关系
def classify(inX, dataSet, label, k):
dataSetSize = dataSet.shape[0]
# np.tile()是把矩阵在复制为指定大小
diffMat = np.tile(inX,(dataSetSize,1)) - dataSet
sqDiffMat = diffMat ** 2
# 将矩阵按行相加
sqDistance = sqDiffMat.sum(axis=1)
distance = sqDistance ** 0.5
# np.argsort() 返回排好序的矩阵索引值,也就是数组下标,默认按行
sortedIndex = distance.argsort()
classCount = {}
for i in range(k):
# sortedIndex排好序的索引用来取对应的标签
voteLabel = label[sortedIndex[I]]
# 字典的get方法,取字典里的值,如不存在则默认为0
classCount[voteLabel] = classCount.get(voteLabel,0) + 1
# 将标签次数按大小排序,返回最接近的标签
sortedClassCount = sorted(classCount.keys(),reverse=True)
return sortedClassCount[0][0]
数据预处理
- 下面定义的所有函数在HWRecogSystem.py中
-
把数据集放到代码文件夹下:
文件结构大概这样 - 在文件最底下写上这么几行(程序执行的入口),把文件目录标明
if __name__ == "__main__":
fileDir = 'digits/trainingDigits/'
testFileDir = 'digits/testDigits/'
将图像转化为向量
- 我们需要把每一个32*32的图像转化为一个1*1024的向量
- 打开文件循环读出前32行,存入向量
代码
import kNN
import os
import numpy as np
def imageToVector(fileDir,fileName):
fileName = fileDir + fileName
# 由于数据存储为32*32的二进制图像,所以需要一个1行1024列的向量来存储
returnVector = np.zeros((1,1024))
f = open(fileName)
for i in range(32):
lineStr = f.readline()
for j in range(32):
initIndex = 32*I+j
returnVector[0,initIndex] = int(lineStr[j])
return returnVector
从训练数据集中创建训练集和标签
- fileDir是存放训练数据的文件夹, 上面已经说明
def createDataSet(fileDir):
# 统计该目录下的文件数量
for root,dirs,files in os.walk(fileDir):
fileLen = len(files)
# 初始化dataSet矩阵,足够放入所有的二进制图像矩阵
dataSet = np.zeros((fileLen,1024))
label = []
for i in range(fileLen):
label.append(files[i][0])
vector = imageToVector(fileDir,files[I])
dataSet = np.insert(dataSet,i,vector,axis=0)
return label, dataSet
测试函数及模型
def accuracyTest(fileDir):
count = 0
for root,dirs,files in os.walk(fileDir):
fileLen = len(files)
recog = np.zeros((1,fileLen))
label,dataSet = createDataSet(fileDir)
for i in range(fileLen):
recog[0,i] = kNN.classify(imageToVector(fileDir,files[i]),dataSet,label,20)
print('识别结果:' + str(recog[0,i]) + '实际值:' + str(label[I]))
if recog[0,i] == int(label[I]):
count = count+1
return round(count/fileLen,3)
if __name__ == "__main__":
fileDir = 'digits/trainingDigits/'
testFileDir = 'digits/testDigits/'
accuracy = accuracyTest(testFileDir)
print('识别率:' + str(accuracy*100) + '%')
实现效果
- 代码大概要跑20s
-
要更精确,可以进行更多次迭代或者寻找更多数据集
运行结果
参考
- 机器学习实战 [美]Peter Harrington 著 李锐 李鹏 曲亚东 王斌 译
- 书籍官网
官网,数据集和源码也可以从这下载, 但是个人觉得他的源码质量一般
网友评论