在人工智能视觉检测领域,我们知道,要识别出某个目标来,比如识别出一个人在抽烟,都是需要大量有人抽烟的图片素材来输入给AI模型进行训练,让它学习到相关的特征,注意,这些特征并不是我们通常意义上可以用文字描述出来的特征,而是纯感官上的直觉,要赋予AI的也是这种直觉。
为了收集这类有目标的图片,以前往往需要付出很多的成本,比如采购相关的图片视频数据、在网上花时间搜索公开数据库、或者干脆再自己扮演角色来模仿动作并采集图片。但,最近遇到了一个比较难收集素材的需求:检测厨房里有老鼠出没。芭比Q了,老鼠可不会配合人来摆拍,都是人不再的时候才出动,而是啥时候出动也是个未知数呀,所以要采集到老鼠出没的视频很难的。那就去网上搜索?百度到的结果,与我想要的背景不太相符。那有没有一种可以融入我们预设好的现实中的背景,并更好的稳定输出目标的方式呢?《生成式人工智能》一书中,提到了一个不错的方式,是运动到AI质检领域,但是思路可以扩展到整个视觉分析领域。书中提到:
没有很多缺陷图片数据来训练,视觉模型就很难达到不错的效果,AI质检也会存在漏检率或者误检率偏高的情况。对于这个问题,我们会采用一种样本增强的技术来对缺陷库进行补充。而传统的样本增强技术无非是对原始图片进行各种方式的变换,常见的有平移、旋转、缩放、翻转等等,这种方式对于个别小样本问题鲜有成效。随着生成式AI的发展,出现了一种新的解决方案来应对这个问题,即利用生成式AI模型对缺陷图片进行生成,再利用生成出来的缺陷图片进行视觉模型的训练。
在这个过程中,通过两个步骤对缺陷图片进行扩充。第一步,对于同一个缺陷类型,设计不同缺陷位置的图,可以通过人工构建或平移等方式生成,我们把这些图称为种子图。第二步是重点,对于每一张这样的种子图,生成不同缺陷强度的图片,如图4-16所示,每一行从左到右,缺陷强度都逐步下降,各自生成6张不同强度的缺陷图片,实际操作过程中可以生成更多。这样一来,缺陷库就一下子丰富了。
通过这种方式,模型对弱对比度缺陷的检测能力显著提高,整体检测性能也在显著提升,而这让我们看到,生成式AI已经在AI质检领域产生了积极的作用,也让更多场景下的AI质检应用成为可能。书中提到的例子是运用到工业质检领域的,有些缺陷通常在生产中都希望尽量避免,所以这相关的样本和素材本来就少,要去模拟也未必能够覆盖全。通过AIGC的方式,倒是一个不错的思路,这样可以大量输出基于指定背景的目标添加,而且每次都可以生成不重样的图片。首先技术已日趋成熟,通过图生图工具,输入背景图片,然后可以在指定区域增加目标,最新的Midjourney,DALL-E3都带有这种局部控制功能,今天我也拿国内AIGC绘图做得好且免费的商汤秒画来试试效果。
-
首先点击“添加参考图”,上传一张图片,这里我放一张餐饮店厨房的背景图。
4.输入提示词:一只家鼠,全身,长尾巴,四只脚,奔跑中。点击生成。5.得到四张图片。如果不够还可以一次生成8张图片,目前并不是每一张效果都好,文本引导强度 可以设置高些,比如18.但还是要挑选下,比如以下效果:
5.再结合我之前分享过的AIGC视频工具:pika labs或gen-2,见文章:免费AI视频生成神器pika labs:超越gen-2的惊艳效果对比,让你的图片跃动生动我们可以把生成的图片输入进去,得到动态视频。
网友评论