机器视觉中的图像识别问题,常常需要大量的数据,而带标签的数据需要人工标注,很难得到较多的数据。因此,我们需要使用图像增强的方法,人工生成各种变换后的数据,扩大我们的数据量,增强系统的鲁棒性,也是一种防止过拟合的方法。
图像增强的非常常用变换有:
- 镜像反转:像镜子一样把一张图像左右互换了
- 随机切割:把一个图像随机的取出其中的部分
- 颜色转换:RGB的三个颜色通道,简单的变化就随机加减,高级玩法可以用PCA主成分分析的降维方法调整RGB,图像的颜色会有些变化
- 旋转
- 扭曲
- 裁剪
图像增强的手段,其实相对于让机器学习的模型能见识各种情况下的数据,增强它的鲁棒性。在我们人类看来可能觉得是同一个图像,但是机器觉得这就是不同的图像。
在具体编程实施,通常是开一个线程专门处理原始图像的变换,并形成一个mini-batch集,塞入到训练的过程中,这可以是并行的,不影响原来训练的顺序。
关于我:
linxinzhe,全栈工程师,目前供职于某500强通信企业。人工智能,区块链爱好者。
GitHub:https://github.com/linxinzhe
欢迎留言讨论,也欢迎关注我,收获更多AI开发相关的知识,我也会关注你的哦!
网友评论