AI训练图片不够？试试用AI生成技术丰富任意目标的图片集

作者: 吴言不语零一二三 | 来源:发表于2023-11-06 12:51 被阅读0次

如何获取免费Android人脸识别SDK？神目AI开放平台使用指
如何获取免费Android人脸识别SDK？神目AI开放平台使用指
AI产品经理网课笔记9/7
Topaz Gigapixel AI for Mac(照片放大工
搜狐视频AI战力崛起：老剧翻新画质增强修改版
华为云EI ModelArts，从0到1开发训练AI模型，通过“
厉害的ai，我都落伍了
推荐一个图片生成AI
搜狗讯飞对决，谁是你心中2020年最棒的旗舰款AI录音笔？
如何看待AI技术？什么是AI？（附教程）

在人工智能视觉检测领域，我们知道，要识别出某个目标来，比如识别出一个人在抽烟，都是需要大量有人抽烟的图片素材来输入给AI模型进行训练，让它学习到相关的特征，注意，这些特征并不是我们通常意义上可以用文字描述出来的特征，而是纯感官上的直觉，要赋予AI的也是这种直觉。

为了收集这类有目标的图片，以前往往需要付出很多的成本，比如采购相关的图片视频数据、在网上花时间搜索公开数据库、或者干脆再自己扮演角色来模仿动作并采集图片。但，最近遇到了一个比较难收集素材的需求:检测厨房里有老鼠出没。芭比Q了，老鼠可不会配合人来摆拍，都是人不再的时候才出动，而是啥时候出动也是个未知数呀，所以要采集到老鼠出没的视频很难的。那就去网上搜索？百度到的结果，与我想要的背景不太相符。那有没有一种可以融入我们预设好的现实中的背景，并更好的稳定输出目标的方式呢？《生成式人工智能》一书中，提到了一个不错的方式，是运动到AI质检领域，但是思路可以扩展到整个视觉分析领域。书中提到:

没有很多缺陷图片数据来训练，视觉模型就很难达到不错的效果，AI质检也会存在漏检率或者误检率偏高的情况。对于这个问题，我们会采用一种样本增强的技术来对缺陷库进行补充。而传统的样本增强技术无非是对原始图片进行各种方式的变换，常见的有平移、旋转、缩放、翻转等等，这种方式对于个别小样本问题鲜有成效。随着生成式AI的发展，出现了一种新的解决方案来应对这个问题，即利用生成式AI模型对缺陷图片进行生成，再利用生成出来的缺陷图片进行视觉模型的训练。

在这个过程中，通过两个步骤对缺陷图片进行扩充。第一步，对于同一个缺陷类型，设计不同缺陷位置的图，可以通过人工构建或平移等方式生成，我们把这些图称为种子图。第二步是重点，对于每一张这样的种子图，生成不同缺陷强度的图片，如图4-16所示，每一行从左到右，缺陷强度都逐步下降，各自生成6张不同强度的缺陷图片，实际操作过程中可以生成更多。这样一来，缺陷库就一下子丰富了。

通过这种方式，模型对弱对比度缺陷的检测能力显著提高，整体检测性能也在显著提升，而这让我们看到，生成式AI已经在AI质检领域产生了积极的作用，也让更多场景下的AI质检应用成为可能。

书中提到的例子是运用到工业质检领域的，有些缺陷通常在生产中都希望尽量避免，所以这相关的样本和素材本来就少，要去模拟也未必能够覆盖全。通过AIGC的方式，倒是一个不错的思路，这样可以大量输出基于指定背景的目标添加，而且每次都可以生成不重样的图片。首先技术已日趋成熟，通过图生图工具，输入背景图片，然后可以在指定区域增加目标，最新的Midjourney，DALL-E3都带有这种局部控制功能，今天我也拿国内AIGC绘图做得好且免费的商汤秒画来试试效果。