【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方

作者: 阿里云_云栖社区 | 来源:发表于2018-01-25 15:50 被阅读478次

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方
《白话深度学习与Tensorflow》学习笔记（4）Deep R
目标检测：YOLO和SSD 简介
改变你对世界看法的五大计算机视觉技术
fastaiv3-lesson3笔记-CamVid图片语义分割
基于深度学习的语义分割技术讲解
[CS231n]Lecture 2 Image Classifi
使用Keras的基于深度学习的语义分割概述
HRNet V1 V2
图像分割：全卷积神经网络（FCN）详解

本文旨在介绍深度学习在计算机视觉领域四大基本任务中的应用，包括分类(图a)、定位、检测(图b)、语义分割(图c)、和实例分割(图d)。

图像分类(image classification)

给定一张输入图像，图像分类任务旨在判断该图像所属类别。

(1) 图像分类常用数据集

以下是几种常用分类数据集，难度依次递增。http://rodrigob.github.io/are_we_there_yet/build/列举了各算法在各数据集上的性能排名。

MNIST 60k训练图像、10k测试图像、10个类别、图像大小1×28×28、内容是0-9手写数字。

CIFAR-10 50k训练图像、10k测试图像、10个类别、图像大小3×32×32。

CIFAR-100 50k训练图像、10k测试图像、100个类别、图像大小3×32×32。

ImageNet 1.2M训练图像、50k验证图像、1k个类别。2017年及之前，每年会举行基于ImageNet数据集的ILSVRC竞赛，这相当于计算机视觉界奥林匹克。

(2) 图像分类经典网络结构

基本架构 我们用conv代表卷积层、bn代表批量归一层、pool代表汇合层。最常见的网络结构顺序是conv -> bn -> relu -> pool，其中卷积层用于提取特征、汇合层用于减少空间大小。随着网络深度的进行，图像的空间大小将越来越小，而通道数会越来越大。

针对你的任务，如何设计网络？ 当面对你的实际任务时，如果你的目标是解决该任务而不是发明新算法，那么不要试图自己设计全新的网络结构，也不要试图从零复现现有的网络结构。找已经公开的实现和预训练模型进行微调。去掉最后一个全连接层和对应softmax，加上对应你任务的全连接层和softmax，再固定住前面的层，只训练你加的部分。如果你的训练数据比较多，那么可以多微调几层，甚至微调所有层。

LeNet-5 60k参数。网络基本架构为：conv1 (6) -> pool1 -> conv2 (16) -> pool2 -> fc3 (120) -> fc4 (84) -> fc5 (10) -> softmax。括号中的数字代表通道数，网络名称中有5表示它有5层conv/fc层。当时，LeNet-5被成功用于ATM以对支票中的手写数字进行识别。LeNet取名源自其作者姓LeCun。

阅读原文