GAN原理及推导

GAN原理及推导

作者: ZAK_ML | 来源:发表于2019-04-13 15:43 被阅读0次

四.训练

5.存在的问题

但是上面 G 的 loss function 还是有一点小问题，下图是两个函数的图像：

log(1-D(x)) 是我们计算时 G 的 loss function，但是我们发现，在 D(x) 接近于 0 的时候，这个函数十分平滑，梯度非常的小。这就会导致，在训练的初期，G 想要骗过 D，变化十分的缓慢，而上面的函数，趋势和下面的是一样的，都是递减的。但是它的优势是在 D(x) 接近 0 的时候，梯度很大，有利于训练，在 D(x) 越来越大之后，梯度减小，这也很符合实际，在初期应该训练速度更快，到后期速度减慢。

所以我们把 G 的 loss function 修改为

这样可以提高训练的速度。

还有一个问题，在其他 paper 中提出，就是经过实验发现，经过许多次训练，loss 一直都是平的，也就是

JS divergence 一直都是 log2，PG 和 Pdata 完全没有交集，但是实际上两个分布是有交集的，造成这个的原因是因为，我们无法真正计算期望和积分，只能使用 sample 的方法，如果训练的过拟合了，D 还是能够完全把两部分的点分开，如下图：

对于这个问题，我们是否应该让 D 变得弱一点，减弱它的分类能力，但是从理论上讲，为了让它能够有效的区分真假图片，我们又希望它能够 powerful，所以这里就产生了矛盾。

还有可能的原因是，虽然两个分布都是高维的，但是两个分布都十分的窄，可能交集相当小，这样也会导致 JS divergence 算出来 =log2，约等于没有交集。

解决的一些方法，有添加噪声，让两个分布变得更宽，可能可以增大它们的交集，这样 JS divergence 就可以计算，但是随着时间变化，噪声需要逐渐变小。

还有一个问题叫 Mode Collapse，如下图：

这个图的意思是，data 的分布是一个双峰的，但是学习到的生成分布却只有单峰，我们可以看到模型学到的数据，但是却不知道它没有学到的分布。

造成这个情况的原因是，KL divergence 里的两个分布写反了

这个图很清楚的显示了，如果是第一个 KL divergence 的写法，为了防止出现无穷大，所以有 Pdata 出现的地方都必须要有 PG 覆盖，就不会出现 Mode Collapse。

相关文章

网友评论

本文标题：GAN原理及推导

本文链接：https://www.haomeiwen.com/subject/ldtrwqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|GAN原理及推导|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！