卷积网络

使用卷积相当于提取图片的边缘特征，利用深度学习改变滤波器让其可以提取合适的特征。
valid convolution means not padding , same convolution means the input size are the same as input size。
很少使用偶数的滤波器，会出现不对成的填充，而且就会失去中心点，造成很多的不便。
一个滤波器对应一张feature map ，多个滤波器对应多张 feature maps
使用池化层的作用（无需学习任何的参数，常用的hyper parameters: filter size = 2*2 , stride = 2 , Max or average pooling）：
- 缩小图片的大小
- 提高提取特征的鲁棒性
- 加快计算速度
卷积的优势：
- 参数共享，容易训练
- 使用于各个位置的平移不变性
- 使用稀疏链接，卷积后的点只是依赖于卷积核大小的个数units

深度卷积网络

LeNet - 5
- 跟着池化层，通道不断增加，最后有全连接层
- pool 之后加了non-linear layer ，至今没有广泛使用
AlexNet
- 使用ReLu 激活函数，而且比较复杂，模型容量较大
VGG-16
- conv = 3*3 , s = 1 , samge padding
- max-pool = 2*2 , s = 2
- 简化了网络结构, 图像缩小和通道增加有规律
ResNet
- 直接进行跳步
- 训练更加深层的网络(防止梯度爆炸或者梯度下降)
- 11 convolution , 11 filter : 对于多个通道效果比较好， Network
  in Network ,实现的作用是全连接的网络　，增加了一层非线性层，用来保持或者减少通道的数量
GoogleNet
- 网络结构复杂，让网络选择是否需要进行大小不同的卷积或者进行池化
- bottle neck : 1*1 卷积网络，大量减少计算成本，合理设置bottle neck 的大小就可以有不错的性能
使用开源实现方案
- 直接拿别人成熟的实现方案，再根据自己的项目进行定制.
- 重要的是迁移学习，使用已经训练好的网络参数，然后进行fine-tune ，快速却有效的构建自己的网络.
- 训练集越大，可以训练的层数越多。（具体要怎么度量？哪些是trainable 哪些是 freeze）
数据扩充的方法
- 镜像对称，随机裁剪 (旋转扭曲)
- color shifting 色彩转换 , PCA color augmentation
- 使用多线程进行数据的读取，数据的预处理，以及网络的训练

训练出一个好的网络的方法：迁移学习，非常非常大的数据集，通过人工洞察力精致设计网络架构从而为网络提供足够的先验知识或者约束。
---- JPlin

在数据集上表现良好的方法，集成多个独立的网络取平均， multi-crop at test time , use open source code
---- 吴恩达