0.CV常用python模块

图像数据读取与处理包

包名	特点	（中文）官网
`Pillow`	提供常见的图像读取和处理的操作，可以与ipython notebook无缝集成	https://pillow.readthedocs.io/en/stable/
`OpenCV`	众多的计算机视觉、数字图像处理和机器视觉等功能，比Pillow更加强大很多，但是学习成本高	http://www.opencv.org.cn/

数据扩增包

包名	特点	官网
`torchvision`	可与torch集成，提供基本的数据数据扩增方法，但较少，速度中等	https://github.com/pytorch/vision
`imgaug`	提供了多样的数据扩增方法，且组合起来非常方便，速度较快	https://github.com/aleju/imgaug
`albumentations`	提供了多样的数据扩增方法，对图像分类、语义分割、物体检测和关键点检测都支持，速度较快	https://albumentations.readthedocs.io

数据扩增就像是通过各种方法，给同一样本增加不同视角的衍生样本。一般会从图像颜色、尺寸、形态、空间和像素等角度进行变换，或者组合变换。但是要注意的是某些变换可能会改变样本的正确标签，如 $6\to 9$

常见的方法：

transforms.CenterCrop 对图片中心进行裁剪

transforms.ColorJitter 对图像颜色的对比度、饱和度和零度进行变换

transforms.FiveCrop 对图像四个角和中心进行裁剪得到五分图像

transforms.Grayscale 对图像进行灰度变换

transforms.Pad 使用固定值进行像素填充

transforms.RandomAffine 随机仿射变换

transforms.RandomCrop 随机区域裁剪

transforms.RandomHorizontalFlip 随机水平翻转

transforms.RandomRotation 随机旋转

transforms.RandomVerticalFlip 随机垂直翻转

1. 使用方法

以torch为例主要是修改其中的两个类：

Dataset：对数据集的封装，提供索引方式的对数据样本进行读取
DataLoder：对Dataset进行封装，提供批量读取的迭代读取

from torch.utils.data.dataset import Dataset, DataLoader
from torchvision import transforms

class SVHNDataset(Dataset):
    def __init__(self, img_path, img_label, transform=None):
        self.img_path = img_path # 所有图像的具体路径，如[/home/username/database/train/0000.jpg,...]
        self.img_label = img_label # 所有图像的标签，如[1,0,1,1,0,...]，但是在这个任务中，list中的元素还是list
        if transform is not None:
            self.transform = transform
        else:
            self.transform = None

    def __getitem__(self, index): # 这个类中 最重写关键的 方法，保证单条数据可以通过index取出来
        img = Image.open(self.img_path[index]).convert('RGB')

        if self.transform is not None:
            img = self.transform(img)
        
        lbl = np.array(self.img_label[index], dtype=np.int)
        lbl = list(lbl)  + (5 - len(lbl)) * [10]
        
        return img, torch.from_numpy(np.array(lbl[:5]))

    def __len__(self):
        return len(self.img_path)

以上封装完成后，储存在目录下数据的索引就被打包起来了，而且可以用index单条读取具体数据，数据扩增也在读取时完成（随叫随取随扩增）

train_loader = DataLoader(
        SVHNDataset(train_path, train_label,
                   transforms.Compose([
                       transforms.Resize((64, 128)), # 缩放到64*128
                       transforms.ColorJitter(0.3, 0.3, 0.2), # 随机颜色变换
                       transforms.RandomRotation(5), # 加入随机旋转
                       transforms.ToTensor(), # 将图片转换为pytorch 的tesntor
                       transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) # 对图像像素进行归一化
            ])), 
    batch_size=10, # 每批样本个数
    shuffle=False, # 是否打乱顺序
    num_workers=10, # 读取的线程个数
)

在加入DataLoder后，数据按照批次获取，每批次调用Dataset读取单个样本进行拼接。此时data的格式为：
torch.Size([10, 3, 64, 128]), torch.Size([10, 6])
前者为图像文件，为batchsize * chanel * height * width次序；后者为字符标签，由于定长字符识别中预设字符长度为6，所以标签为10x6矩阵。