现在的人工智能这四个字可以说是随处可见,但大多数人还是可能觉得,离我甚远,跟普通人没多大关系。但实际上,AI突飞猛进,正在脱离实验室,进入了日常生活。仅仅是现在的技术水平,就足以模糊现实与虚拟的界限,颠覆一般民众的认知。
一、图像处理
人工智能最早是从图像处理开始的。图像处理事一种常见任务,智能要求比较高,需要使用Photoshop之类的软件人工编辑,一般都算法解决不了。
1.1对象补全
2017年,日本科学家提出了一种图像的对象补全模型。经过训练,模型可以补全图片上缺失的部分。
1.2背景处理
背景处理指的是,将前景物体从图片分离出来,再对背景进行加工。目前,已经有很好的智能算法可以去除图片背景。
1.3样式转换
人工智能还能够识别图片的风格样式(即像素的变化规律),将其套用在另一张图片。
1.4图像着色
一旦识别出图片中的物体,模型就可以统计不同物体的像素颜色规律,然后就能推断黑白照片可能的颜色,从而实现照片着色。
二、GAN方法
2.1简介
GAN是"生成对抗网络(Generative)"的缩写,它是一种革命性的提升人工智能模型效果、生成虚拟图像的方法。
原理很简单,就是两个神经网络互相对抗。一个神经网络负责生成虚拟图像,另一个神经网络负责鉴定假图像。理论上,如果GAN训练成功,那么生成的假图像与真图像将无法区分。2014年 这种方法提出以后,快速发展,目前效果可以乱真。
GAN不仅能生成虚拟图像,还能生成音频、文本,甚至是化合物分子。AI模型可能创造出来的任何东西,都能使用GAN提升效果。GitHub有一个仓库,专门收集不同用途的GAN,目前已经有了500多种。
2.2StyleGAN
目前,生成虚拟人像效果最好的模型是Nvidia公司的StyleGAN。
2.3图像翻译
一种图像通过GAN转变为另一个图像,称为图像翻译。空拍照片变成地图、黑白照片变成彩色照片,都是图像翻译的例子。
pix2pix是图像翻译的开源工具,它可以让黑夜变成白天,示意图变成实物图。
图像翻译的难点在于,它需要有成对的示例(源图像和相应的目标图像),告诉模型应该怎么翻译,这些示例可能是很难创建。但是反过来,只要有配对的示例,就可以翻译图像,不管这种翻译是否合理。
CycleGAN模型还支持跨域翻译,将照片翻译成油画,斑马翻译成马。
网友评论