【笔记】PyImageResearch-DL4CV阅读笔记-4

作者: 曦沉 | 来源:发表于2018-07-17 03:23 被阅读18次

    20180716pyimageresearch的DeepLearning for ComputerVision电子书阅读笔记。

    封面

    Chapter 5: Datasets for Image Classification 图像分类数据集

    在深入到代码之前,我们来把数据集图像进行分类的角度来进行阐述,从而帮助我们了解分类器的制作过程。

    我们接触到的数据集中,有些可以被认为是已经“解决的”,也就是说我们可以参考教程文档,不用费多大劲就可以得到很高的准确率(大于95%)。另一些数据集可以被认为是“未解决的”,也就是还处在研究阶段,没有合适的模型或者是方法来做到很好的分类。

    MNIST数据集

    这个数据集的目的是精确的分类数据集中0~9的手写图片。它属于Nattional Institute of Standards and Technology,最前面的M代表了modified。这个数据集通常也被用作评估机器学习算法。

    MNIST

    数据集中的图片都是28 X 28像素的灰度图,图片像素是0~255的无符号整形数据。图像的背景是纯黑色,前景使用灰度或者纯白像素来表示。数据集中共有约60000张训练图片和10000张测试图片。每个特征向量为784长度(也可以叫做维度,从程序角度看作长度为784的数组)。

    Animals: Dogs, Cats and Pandas数据集

    里面包含了各1000张狗,猫和熊猫的照片,这个数据集的学习会在第十章,并且配合CNN来进行。


    Animals: Dogs, Cats and Pandas

    CIFAR-10数据集

    和MNIST数据集的地位类似,CIFAR-10也经常被用作评测深度学习算法,里面包含的是32 X 32 X 3通道的彩色图像,总数大约60000张。特征向量长度3072。从名字可以直观的看出CIFAR-10包含了10类物体,分别是:airplanes, automobiles, birds, cats, deer, dogs, frogs, horses, ships and trucks.

    CIFAR-10

    在CIFAR-10上已经很难直接获得像MNIST那样97%正确率的效果了,一般来CIFAR-10经常被用做评价新的CNN框架(还不太明白里面具体的做法)。

    SMILES数据集

    SMILES数据集包含的内容是13165张灰度的笑脸和非笑脸照片。图像大小64 X 64。

    SMILES

    作者在这里提到了一些关于计算机视觉的建议,由于深度学习数据集中都包含有图像数据,那么计算机视觉的基础知识很有必要去具备。

    Kaggle挑战:狗猫数据集

    包含约25000张不同分辨率的图片。由于图像分辨率的不同,图像预处理部分的工作比重相对会加大。


    Kaggle: Dogs vs Cats

    Flowers-17数据集

    包含17种,每种80张图片。这个数据集的目的是训练深度学习模型进行花品种的分类。但是数据集中图像的尺度(scale),视角(Point Of View),背景(background clutter),光照环境(lighting condition),内分类(intra-class)的变化都非常大,所以这个数据集可以看作是一个挑战数据集。


    Flowers-17

    作者提出,每种类型通常需要1000~5000张图片进行深度学习网络的训练,Flowers-17的数据集很少。现在自己可以想到的思路是进行数据集倍增,也就是通过图像图形学的变幻强行“增加”数据集数量。(这里感觉文章说的有点问题,之后需要回头再看描述,防止误导)

    Ting ImageNet 200数据集

    数据集包含500张训练图片,50张测试图片,图片分辨率为64 X 64 X 3。文中提到200 image classes,不太清楚是否为200种图片类型?

    Adience数据集

    用于训练年龄和性别评估网络的数据集,包含了26580图片,年龄范围为0~60岁的人像。

    ImageNet数据集

    这个数据集作者用了较大篇幅来介绍。

    ImageNet是一个包含了大约22000类型图片的数据集,图片的词语描述作为分类的依据。

    图片的词汇描述遵循WordNet层级(这个不清楚是什么),每个有含义的词汇和描述被称作synonym set或缩写为synset。数据集中的图像被按照这个标准(层级关系?)分类。目标是每个层级关系包含1000张以上的图片。

    作者提到,通常人们说起ImageNet数据集一般是指ImageNet Large Scale Visual Recognition Challenge(ILSVRC)数据集。这是一个用于训练提取年龄性别的数据集。
    年龄范围:0~60+

    ILSVRC

    整个数据集包含了近1000个种类,近120w张训练图片,5w张验证图片,10w张测试图片。
    其中的1000个种类包含了日常生活中的猫,狗,各种家具,车辆类型等
    数据集网址在这里

    Kaggle: Facial Expression Recognition Challenge数据集

    数据集包含了35888张图片,用于训练能分辨表情的深度学习神经网络,表情被定义为7个类别:Angry, Disgust, Fear, Happy, Sad, Surprise, Neutral

    Facial Expression Recognition Challenge

    Indoor CVPR数据集

    数据集包含了室内的各种物品,场景等。数据集的目的是为了训练出能够分辨室内区域的神经网络。
    作者会在后面展示如何使用该数据集自动修正图片的方向(image orientation)

    Standord Cars数据集

    数据集包含16185张图片,196种汽车。
    作者之后提供了例子使用CNN来达到95%的分类正确率。

    相关文章

      网友评论

        本文标题:【笔记】PyImageResearch-DL4CV阅读笔记-4

        本文链接:https://www.haomeiwen.com/subject/tunipftx.html