【笔记】PyImageResearch-DL4CV阅读笔记-4

作者: 曦沉 | 来源:发表于2018-07-17 03:23 被阅读18次

20180716：pyimageresearch的DeepLearning for ComputerVision电子书阅读笔记。

封面

Chapter 5： Datasets for Image Classification 图像分类数据集

在深入到代码之前，我们来把数据集图像进行分类的角度来进行阐述，从而帮助我们了解分类器的制作过程。

我们接触到的数据集中，有些可以被认为是已经“解决的”，也就是说我们可以参考教程文档，不用费多大劲就可以得到很高的准确率（大于95%）。另一些数据集可以被认为是“未解决的”，也就是还处在研究阶段，没有合适的模型或者是方法来做到很好的分类。

MNIST数据集

这个数据集的目的是精确的分类数据集中0~9的手写图片。它属于Nattional Institute of Standards and Technology，最前面的M代表了modified。这个数据集通常也被用作评估机器学习算法。

MNIST

数据集中的图片都是28 X 28像素的灰度图，图片像素是0~255的无符号整形数据。图像的背景是纯黑色，前景使用灰度或者纯白像素来表示。数据集中共有约60000张训练图片和10000张测试图片。每个特征向量为784长度（也可以叫做维度，从程序角度看作长度为784的数组）。

Animals: Dogs, Cats and Pandas数据集

里面包含了各1000张狗，猫和熊猫的照片，这个数据集的学习会在第十章，并且配合CNN来进行。

Animals: Dogs, Cats and Pandas

CIFAR-10数据集

和MNIST数据集的地位类似，CIFAR-10也经常被用作评测深度学习算法，里面包含的是32 X 32 X 3通道的彩色图像，总数大约60000张。特征向量长度3072。从名字可以直观的看出CIFAR-10包含了10类物体，分别是：airplanes, automobiles, birds, cats, deer, dogs, frogs, horses, ships and trucks.

CIFAR-10

在CIFAR-10上已经很难直接获得像MNIST那样97%正确率的效果了，一般来CIFAR-10经常被用做评价新的CNN框架（还不太明白里面具体的做法）。

SMILES数据集

SMILES数据集包含的内容是13165张灰度的笑脸和非笑脸照片。图像大小64 X 64。

SMILES

作者在这里提到了一些关于计算机视觉的建议，由于深度学习数据集中都包含有图像数据，那么计算机视觉的基础知识很有必要去具备。

Kaggle挑战：狗猫数据集

包含约25000张不同分辨率的图片。由于图像分辨率的不同，图像预处理部分的工作比重相对会加大。

Kaggle: Dogs vs Cats

Flowers-17数据集

包含17种，每种80张图片。这个数据集的目的是训练深度学习模型进行花品种的分类。但是数据集中图像的尺度（scale），视角（Point Of View），背景（background clutter），光照环境（lighting condition），内分类（intra-class）的变化都非常大，所以这个数据集可以看作是一个挑战数据集。

Flowers-17

作者提出，每种类型通常需要1000~5000张图片进行深度学习网络的训练，Flowers-17的数据集很少。现在自己可以想到的思路是进行数据集倍增，也就是通过图像图形学的变幻强行“增加”数据集数量。（这里感觉文章说的有点问题，之后需要回头再看描述，防止误导）

Ting ImageNet 200数据集

数据集包含500张训练图片，50张测试图片，图片分辨率为64 X 64 X 3。文中提到200 image classes，不太清楚是否为200种图片类型？

Adience数据集

用于训练年龄和性别评估网络的数据集，包含了26580图片，年龄范围为0~60岁的人像。

ImageNet数据集

这个数据集作者用了较大篇幅来介绍。

ImageNet是一个包含了大约22000类型图片的数据集，图片的词语描述作为分类的依据。

图片的词汇描述遵循WordNet层级（这个不清楚是什么），每个有含义的词汇和描述被称作synonym set或缩写为synset。数据集中的图像被按照这个标准（层级关系？）分类。目标是每个层级关系包含1000张以上的图片。

作者提到，通常人们说起ImageNet数据集一般是指ImageNet Large Scale Visual Recognition Challenge(ILSVRC)数据集。这是一个用于训练提取年龄和性别的数据集。
年龄范围：0~60+

ILSVRC

整个数据集包含了近1000个种类，近120w张训练图片，5w张验证图片，10w张测试图片。
其中的1000个种类包含了日常生活中的猫，狗，各种家具，车辆类型等
数据集网址在这里

Kaggle： Facial Expression Recognition Challenge数据集

数据集包含了35888张图片，用于训练能分辨表情的深度学习神经网络，表情被定义为7个类别：Angry, Disgust, Fear, Happy, Sad, Surprise, Neutral。

Facial Expression Recognition Challenge

Indoor CVPR数据集

数据集包含了室内的各种物品，场景等。数据集的目的是为了训练出能够分辨室内区域的神经网络。
作者会在后面展示如何使用该数据集自动修正图片的方向（image orientation）

Standord Cars数据集

数据集包含16185张图片，196种汽车。
作者之后提供了例子使用CNN来达到95%的分类正确率。

网友评论

本文标题：【笔记】PyImageResearch-DL4CV阅读笔记-4

本文链接：https://www.haomeiwen.com/subject/tunipftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！