Tensorflow实现Neural Style

作者: DayDayUpppppp | 来源:发表于2018-01-10 21:46 被阅读0次

风格迁移
Tensorflow实现Neural Style
整理 | 与这段时间课程学习设计与实现相关的一些链接
style-transfer 的一些资料
实时任意风格迁移
Neural Art
TensorFlow 2.0 神经网络超参调优（英文翻译）
TensorFlow 卷积神经网络实用指南 | iBooker·
吴恩达Convolutional Neural Netwoks
How to Quantize Neural Networks

最近深度学习里面最cool的一个模型CNN卷积神经网络，搞明白了cnn的基本模型之后，跑了几个CNN的模型，算是CNN有一个基本的认识了。

这几天打算进阶一下，熟悉一些更复杂的模型。前几天在网上很火的图片风格合成，利用vgg学习内容图片A + 背景风格图片B的特征，然后生成一个新的图片，类似下图。

参考了一些paper和其他人分享的博客，打算自己实践一下。

基本原理

对于一张图片的输入，CNN的每一层会捕捉到不同的特征（这个特征取决于loss function的设计）。但总的来说，CNN的底层捕捉简单的线条和边缘，但是随着网络的深入，CNN可以学到更加复杂和抽象的特征。如下图所示：

人脸识别的一个例子

Neural-style的原理也是相似的，利用CNN的提取内容图片的特征和风格图片的特征，将他们融合到一张随机噪声的背景图上面。

具体实现

这里的CNN的模型用的是Vgg（包含16个卷积层和5个池化层），模型如下图所示：

所以，将内容图片和风格图片放入vgg里面之后，同上面讲的道理一样，vgg的每一层会捕捉到不同的特征，层数越高，捕捉到的特征会越复杂。如下图所示，(d)和(e)较好地保留了图像的高阶内容（high-level content）而丢弃了过于细节的像素信息。

在实际实验中，内容层和风格层选择如下：
内容层：conv4_2
风格层：conv11, conv2_1, conv3__1_, _conv4_1, conv5_1
训练过程：
以白噪声图像作为输入(x)到VGG19网络，conv4_2层的响应与原始内容图像计算出内容损失（Content Loss）。
“conv1_1, conv2_1, conv3_1, conv4_1, conv5_1”这5层的响应分别与风格图像计算出风格损失，然后它们相加得到总的风格损失（Style Loss）。
最后Content Loss + Style Loss = Total Loss得到总的损失。采用梯度下降的优化方法求解Total Loss函数的最小值，不断更新x，最终得到一幅“合成画”。
计算loss的过程

实现

网上很几个这样的例子，但是基本上都是拿paper的源码跑的。这个源码里面的代码，对刚刚入门tensorflow的新手很不友好。我自己写了一个比较易读的版本。核心代码，如下：

def main():
    net = build_vgg19(VGG_MODEL)
    # 内容图片
    content_img = read_image(CONTENT_IMG)
    # 风格图片
    style_img = read_image(STYLE_IMG)
    # 噪声图片
    noise_img = np.random.uniform(-20, 20, (1, IMAGE_H, IMAGE_W, 3)).astype('float32')

    sess = tf.Session()
    init = tf.global_variables_initializer()
    sess.run(init)

    #把content_img作为Vgg的输入，获得每一次的输出，存在content_outputs里面
    sess.run([net['input'].assign(content_img)])
    content_outputs={}
    for item in CONTENT_LAYERS:
        content_outputs[item[0]]=sess.run(net[item[0]])

    #把style_img作为Vgg的输入，获得每一次的输出，存在style_outputs里面
    sess.run([net['input'].assign(style_img)])
    style_outputs={}
    for item in STYLE_LAYERS:
        style_outputs[item[0]]=sess.run(net[item[0]])

    for key in content_outputs:
        print ('content : ',key)
    
    for key in style_outputs:
        print ('style : ',key)

    #计算loss
    #这里的key指的是某一层；content_outputs[key]是vgg预训练模型中每一层的输出；net[key]而是网络不断迭代后每一层的输出
    cost_content=sum([build_content_loss(content_outputs[key],net[key]) for key in content_outputs])
    cost_style  =sum([build_style_loss  (style_outputs[key],net[key])   for key in style_outputs  ])
    #cost_content=cost_content+sum(build_content_loss(content_outputs[key],net[key]))
    
    cost_total = cost_content + STYLE_STRENGTH * cost_style
    optimizer = tf.train.AdamOptimizer(2.0)
    train = optimizer.minimize(cost_total)

    #noise_img 
    sess.run(tf.global_variables_initializer())
    sess.run(net['input'].assign( INI_NOISE_RATIO * noise_img + (1.-INI_NOISE_RATIO) * content_img))
 
    if not os.path.exists(OUTOUT_DIR):
        os.mkdir(OUTOUT_DIR)
    sess.run(train)
    
    for i in range(ITERATION):
        sess.run(train)
        if i%500 ==0:
            result_img = sess.run(net['input'])
            print (sess.run(cost_total))
            write_image(os.path.join(OUTOUT_DIR,'%s.png'%(str(i).zfill(4))),result_img)

    write_image(os.path.join(OUTOUT_DIR,OUTPUT_IMG),result_img)

结果

环境

Python 3.5
Tensorfow 1.2
GPU 1080ti  
#之前是在自己的电脑上面用cpu跑的，太慢了7~8个小时太能跑完，
#在服务器上面用GPU大概在20分钟左右

Github
https://github.com/zhaozhengcoder/Machine-Learning
在tensorflow 进阶的目录下面

网友评论

本文标题：Tensorflow实现Neural Style

本文链接：https://www.haomeiwen.com/subject/vxsanxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Tensorflow实现Neural Style

相关文章

风格迁移