为了后面介绍seqGAN + RL的应用,先来介绍一下这个很火的GAN,火到似乎女娲上帝都是“干”出来的...
稍提一点背景。统计机器学习中,这个世界是从分布中抽样产生的(假设P(world)是产生这个世界的分布,那这个世界的每一个东西都是从P里面iid抽出来的),我们只要能拿到这个分布,就可创建一个"真实"的世界!那怎么拿到这个分布呢?建模!一般是参数模型,当世界为无穷维的就是非参数模型。(也就是说产生世界的分布还依赖于其他分布,比如产生宇宙的分布,宇宙依赖于....贝叶斯学派喜欢搞复杂)。很幸运!我们有概率论来表示这些分布,有测度论来衡量他们的大小(除了连续空间中很小的边边角角的地方measure zero),然后又知道NN只要足够多参数(节点),可以几乎拟合任何函数!到这了,是不是觉得我们已经可以创造世界了?!(扯得有点多了。大家也知道,其实问题很多,这里先不讲了,下面会提到一些)
再说一点大家都明白的就是,世界分布其实也是不知道的,所以我们也不能通过积分逼近它,最通用的就是采样了,然后通过MLE或者minimize cross-entropy(KL散度,衡量分布的差异)
那先来浅析一下GAN,讲讲这个是干嘛的。
其实上面也说了,他就是个生成模型,可以产生数据,比如一首歌,一张图,一首诗,但更希望产生"真"的数据!可以产生数据的模型其实很多,比如auto-encoder(AE),经典之作VAE,通过decoder的部分就可以产生数据,但是有一个问题是,他们不是真的产生数据,只是让input和output一样,以下列举了生成模型的方法和AE,VAE,资料很多
那么GAN就是用来产生真实数据的!他的能力是通过进化得来的!举个通俗栗子(老王造假币,警察打假)说明下GAN是怎么演化的。老王想造假币谋生,一开始他造的假币很快就被警察实习生识破了;然后老王回去研究一顿之后造出来的假币,实习生分辨不出来了,但是被小警员给识破了;老王回去又开始研究,骗过了小警员;但被警司给识破了....反复研究识破,最后老王造的假币警察已经识别不出来了,和真的一样!这就是GAN的很直观的原理,其中造假币的老王叫generator,警察叫discriminator,他们两个不断博弈对抗,最后让generator学会了以假乱真,达到所谓的纳什均衡
具体到模型上,就是第一代的generator v1(G1),产生的数据,喂给discriminator v1,被轻易地的分辨出来G1产生的是假的,(初始化一个G,产生n个随机数喂给G1产生n张图(target 0)后,从真实数据中取n张图为真实数据(target 1),然后喂给D1训练);G2要变强骗过D1(固定D1,更新G1的参数,使其产生的数据的标签为1),然后D1也要进化为D2,可以辨别G2产生的假数据(G2产生的数据标签为0再训练)..... 最后我就得到了一个世界上最强的G和一个世界上最强的D!你不会问我以我的G来骗我的D会怎么样呢!(一会告诉你)
浅析之后是不是要"潜"析一下了!(公式编辑是很累哦。。还是上图吧)
这说明MLE等价于最小化KL divergence,这种divergence衡量了两个分布的差异。前面也提到NN的特性,可以拟合复杂的函数,那如何用NN产生分布呢?分布的函数还是一个分布,输入一个分布到NN即可!(比如你可以输入一个正太分布等)这好像似乎没GAN什么事。。
那我们来看一下产生一个x的概率,通过上面的方法
Z是我们输入的分布,G是NN很复杂,我们是没办法计算这个的likelihood,也就说到这里我们就卡住了,那算不了likelihood我们怎么来调参?!GAN(干!不会弄公式输入真的很僵!)
终于到了GAN了,先来介绍一下GAN的原理
generator和discriminator可以是任何函数,只是现在都用NN而已,G也是和原理一样通过一个先验分布产生复杂分布,D也差不多,output一个scalar来衡量差异。现在出现了一个V(G,D),通过它可以得到我们要的G!那就来讲讲它吧
先不谈这个怎么来的,但这个看起来很直观对吧。第一个式子x 从真实数据中sample来,那D给他打分高(true data),第二个式子x从G中sample来就给他打分低(false data),也就是-D(x)要高,假设现在有一个G,我们要找一个D来maximize V,这样才是一个合格的Discriminator!
是不是很惊!用D来maxmize V(G,D)得到的竟然是真实分布和生成分布的差异!(Divergence),既然有了衡量差异的东西,那接下来很自然就是调节G的参数来最小化这个差异就好了,也就是上上上图中最后一个式子!顺便说一下JSD取值为[0,log2],当两种分布重合的时候JSD=0
好了,那现在就可以解这个argmin max V(G,D),来得到G,损失就是max V(G,D),用GD就可以解啦(max过程可以用抽样来做)
这里提一点比较小的问题,回想一下上述步骤,我们假设先有一个G然后找一个D得到max(V)(也就是真实和生成的差异),再来调节G找到差异最小的那个G;这时候G跟新了,那D应该重新找最大,顺应G也应该重新调整参数来找最小差异的分布,但这个新的分布一定比上一个分布的差异小么?其实也就如同机器学习设定学习率类似,所以实际编程的话,我们尽量小步或者少次更新G不过好像作者Goodfellow并不在乎这个(这名字老板一定喜欢!)
这里稍微提一下实际操作过程,因为我们不可能做V里面的积分,还是sample的方法
是不是很眼熟,一般二分类器的就是在maximize它!比如逻辑回归等。
贴一张具体算法,很清晰有木有!刚才有提到G的更新要小(次数少或者步长小)!D过程迭代多次是因为数值计算不可能一次找到最大值,每次其实是在找lower bound,多迭代几次可以找的尽可能大的
更新G的时候因为第一项和G无关,就可以不要,但是在实际操作中还有一点不一样的地方,就是V
如果用原始的V,由于开始G产生的数据比较假,会使D(x)值比较小(log(1-D(x))),从图中也可以看出来,D(x)值小对应的梯度也是比较小,会导致在开始训练的时候很慢,改进之后的损失保证了和原来的同样趋势的同时,解决了这个问题,开始训练比较快,之后训练比较慢(-log(D(x)))。这样比较符合一般训练的感觉(其实这个loss是个比较奇怪的Divergence,是KLD - 2JSD,但是有一个在操作上的好处是,写成这样等同于是让G产生的data 作为Discriminator的positive的sample!细节就不说了)
再稍微提一个地方!(来解释一下最强的D和G谁更厉害)先摆一张图来自Martin的Towards Principled Methods for Training Generative Adversarial Networks, 2017
Martin Arjovsky, Leon Bottou, Towards Principled Methods for Training Generative Adversarial Networks, 2017D的loss是用来衡量JSD(JS Divergence)的,可以根据JSD来调G,但是这是理想的状况。实际上如上图,D的loss都趋近于0,也就是准确率为100%,这篇paper告诉我们G train 25个epoch时,G已经很强了(他产生的图已经很真实了),但是你会发现,这时trian一个D时,它一眼就可以分辨出来!是否是说D更厉害呢?为什么D的loss会趋近于0呢,这不是说明JSD没有给我们什么作用呢?(图上表示很快就趋近于0了!)
- 我们没办法做上面的积分,只能用sample的方法,sample的数据,就算G生成的数据和真实数据有重叠,但因为sample的数据,总可以用一个powerful的D找到一个分类面把他们完全分开,那一个办法是限制住D,让它不要过拟合;但是,其实D可以量出JSD的前提是D的capacity是可以输出任何值,也就是要它很powerful!这就出现了奇妙的矛盾,一方面实际操作上要它弱一点,另一方面从理论角度又希望它强一点
- 现在从data的本质上解释,我们的data都是高维空间的manifold(实际data和G产生的data),这样其实data的交际是很小的,这样算出来的divergence就是log2,这会造成什么问题呢?
前面提到GAN的类似演化的过程,变得越来越好!让G产生的data和真实的越来越近,但是让计算机必须要让这个距离越来越小,但是量出来的都是log2...就没有动力进化。。。怎么解决这个问题呢!(WGAN!!!下次讲,这个是重点!!)
那先讲个trick
-
增加噪声
让低纬的manifold变宽,可能就有overlap,D就没有办法完全分开,但是noise要不断变小,减少干扰(这是操作上应该考虑的)
另一个问题 Mode Collapse
也就是只产生一个mode,比如产生数据只能产生一种形式,比如只会画狗,但是我们其实不知道他不会干什么。。(尴尬了吧)也就是说G只会针对一个mode调参,Goodfellow原来以为是原因是原先的loss设定(divergence)有问题,最初提到的MLE也就是loss是KLD,但是我们实际是上在minimize reverse KL Divergence,我们来看下图
这里就举例为什么会有mode collapse。我们来看reverse KL,在什么时候它取值会很大?就是真实数据不存在的时候,也就是G产生不像真实数据时,就会产生很大的loss,这时候它不会冒险产生新图,它宁愿保守的产生固有的某个图(Mode)!(KL情况类似分析即可) GoodFellow说我们是可以直接用KL divergence,但是也不会完全解决这个问题
好啦,这次就先解析这些希望这些内容可以让你对GAN有更多的了解,有些内容也是个人观点, 如果有错误请指明哦。其实GAN有很多内容,这个GAN是不能直接做问答机的,现在就不说了,下次!会介绍一些改进的GAN,然后就可以开始介绍我们的图灵问答机了!!
如有错误的地方一定要指出哦!一起进步!!!
网友评论