20180716:pyimageresearch的DeepLearning for ComputerVision电子书阅读笔记。
封面Chapter 5: Datasets for Image Classification 图像分类数据集
在深入到代码之前,我们来把数据集图像进行分类的角度来进行阐述,从而帮助我们了解分类器的制作过程。
我们接触到的数据集中,有些可以被认为是已经“解决的”,也就是说我们可以参考教程文档,不用费多大劲就可以得到很高的准确率(大于95%)。另一些数据集可以被认为是“未解决的”,也就是还处在研究阶段,没有合适的模型或者是方法来做到很好的分类。
MNIST数据集
这个数据集的目的是精确的分类数据集中0~9的手写图片。它属于Nattional Institute of Standards and Technology
,最前面的M代表了modified
。这个数据集通常也被用作评估机器学习算法。
数据集中的图片都是28 X 28像素的灰度图,图片像素是0~255的无符号整形数据。图像的背景是纯黑色,前景使用灰度或者纯白像素来表示。数据集中共有约60000张训练图片和10000张测试图片。每个特征向量为784长度(也可以叫做维度,从程序角度看作长度为784的数组)。
Animals: Dogs, Cats and Pandas数据集
里面包含了各1000张狗,猫和熊猫的照片,这个数据集的学习会在第十章,并且配合CNN来进行。
Animals: Dogs, Cats and Pandas
CIFAR-10数据集
和MNIST数据集的地位类似,CIFAR-10也经常被用作评测深度学习算法,里面包含的是32 X 32 X 3通道的彩色图像,总数大约60000张。特征向量长度3072。从名字可以直观的看出CIFAR-10包含了10类物体,分别是:airplanes, automobiles, birds, cats, deer, dogs, frogs, horses, ships and trucks.
CIFAR-10在CIFAR-10上已经很难直接获得像MNIST那样97%正确率的效果了,一般来CIFAR-10经常被用做评价新的CNN框架(还不太明白里面具体的做法)。
SMILES数据集
SMILES数据集包含的内容是13165张灰度的笑脸和非笑脸照片。图像大小64 X 64。
SMILES作者在这里提到了一些关于计算机视觉的建议,由于深度学习数据集中都包含有图像数据,那么计算机视觉的基础知识很有必要去具备。
Kaggle挑战:狗猫数据集
包含约25000张不同分辨率的图片。由于图像分辨率的不同,图像预处理部分的工作比重相对会加大。
Kaggle: Dogs vs Cats
Flowers-17数据集
包含17种,每种80张图片。这个数据集的目的是训练深度学习模型进行花品种的分类。但是数据集中图像的尺度(scale),视角(Point Of View),背景(background clutter),光照环境(lighting condition),内分类(intra-class)的变化都非常大,所以这个数据集可以看作是一个挑战数据集。
Flowers-17
作者提出,每种类型通常需要1000~5000张图片进行深度学习网络的训练,Flowers-17的数据集很少。现在自己可以想到的思路是进行数据集倍增,也就是通过图像图形学的变幻强行“增加”数据集数量。(这里感觉文章说的有点问题,之后需要回头再看描述,防止误导)
Ting ImageNet 200数据集
数据集包含500张训练图片,50张测试图片,图片分辨率为64 X 64 X 3。文中提到200 image classes,不太清楚是否为200种图片类型?
Adience数据集
用于训练年龄和性别评估网络的数据集,包含了26580图片,年龄范围为0~60岁的人像。
ImageNet数据集
这个数据集作者用了较大篇幅来介绍。
ImageNet是一个包含了大约22000类型图片的数据集,图片的词语描述作为分类的依据。
图片的词汇描述遵循WordNet层级(这个不清楚是什么),每个有含义的词汇和描述被称作synonym set
或缩写为synset
。数据集中的图像被按照这个标准(层级关系?)分类。目标是每个层级关系包含1000张以上的图片。
作者提到,通常人们说起ImageNet数据集一般是指ImageNet Large Scale Visual Recognition Challenge(ILSVRC)
数据集。这是一个用于训练提取年龄和性别的数据集。
年龄范围:0~60+
整个数据集包含了近1000个种类,近120w张训练图片,5w张验证图片,10w张测试图片。
其中的1000个种类包含了日常生活中的猫,狗,各种家具,车辆类型等
数据集网址在这里
Kaggle: Facial Expression Recognition Challenge数据集
数据集包含了35888张图片,用于训练能分辨表情的深度学习神经网络,表情被定义为7个类别:Angry
, Disgust
, Fear
, Happy
, Sad
, Surprise
, Neutral
。
Indoor CVPR数据集
数据集包含了室内的各种物品,场景等。数据集的目的是为了训练出能够分辨室内区域的神经网络。
作者会在后面展示如何使用该数据集自动修正图片的方向(image orientation)
Standord Cars数据集
数据集包含16185张图片,196种汽车。
作者之后提供了例子使用CNN来达到95%的分类正确率。
网友评论