1.算法描述

Beam Search算法是以较少的代价在相对受限的搜索空间中找出其最优解，得出的解接近于整个搜索空间中的最优解。
Beam Search算法一般分为两部分：

路径搜索：是指在受限空间中检索出所有路径
路径打分：是指对某一条路径进行评估打分

Beam Search的一般步骤为：

初始化beam_size个序列，序列均为空，这些序列称之为beam paths；
取下一个Frame的前N个候选值（N一般为beam size或者更大，Frame内部侯选值已按照概率倒序排列），与已存在的beam paths组合形成N * beam_size条路径，称之为prob_paths；
对prob_paths进行打分，取前beam_size个prob_path作为新的beam paths；
若解码结束在完成算法，否则回到2。

注意：

beam_search只在test的时候需要。

2. motivation动机

（1）encoder-decoder框架

encoder-decoder.png

Encoder部分是一个两层的LSTM 神经网络，这个神经网络不做任何输出，只输出最后一步的h,c，我们可以理解这个h,c 是已经总结了的输入信息；
Decoder部分也是一个两层的LSTM 神经网络，并且其隐藏层h,c 的初始值为Encoder 部分输出的h,c，然后在Decoder 部分进行翻译。

注意在Encoder 部分每一步并不预测任何东西，其初始的h,c 为全零向量，并且与Decoder 是完全不同的参数。

（2）Beam Search

Mismatch between Train and Test

首先需要注意到模型训练和模型预测是两个不同的过程，在训练时，我们知道每一步真正的reference，而在预测时是不知道每一步的reference 的。

encoder过程.png

在上图的网络结构中，都是以上一时刻真正的reference 作为下一时刻的input 来训练模型。但是在预测阶段我们是不知道reference 的，我们可以尝试这样做，把上一次的输出作为下一次的输入。
如果一步错，可能步步错，造成严重后果

不适用beam-search的可能后果.png

3. 代码讲解

未完待续……

4.改进

论文1：A Simple, Fast Diverse Decoding Algorithm for Neural Generation

作者：Jiwei Li, Will Monroe and Dan Jurafsky
单位：Stanford
关键词：seq2seq, diversity, RL
文章来源：arXiv, 2016
问题：seq2seq模型decoder时改进beam search，引入惩罚因子影响排序结果，并加入强化学习模型来自动学习diversity rate，使得解码出的结果更具多样性
模型改进：对比标准beam search，本模型引入惩罚因子。

模型.png

论文2：DIVERSE BEAM SEARCH: DECODING DIVERSE SOLUTIONS FROM NEURAL SEQUENCE MODELS

作者：
Ashwin K Vijayakumar, Michael Cogswell, Ramprasath R. Selvaraju, Qing Sun1 Stefan Lee, David Crandall & Dhruv Batra
单位：
Virginia Tech, Blacksburg, VA, USA
Indiana University, Bloomington, IN, USA
关键词：
Beam Search; Diversity; Image Caption; Machine Translation; Visual Question Answer; Chatbot
文章来源：
arXiv, 2016.10
问题：
如何改进beam search解码算法，使其在seq2seq模型中可以生成更加丰富的结果？
模型：
经典的beam search算法以最大后验概率作为优化目标函数，每一个time step只保留B个最优的状态，是一种典型的贪心算法，这个经典算法常常被用于解码可选状态数量多的情形，比如生成对话、生成图片描述、机器翻译等，每一步都有词表大小的可选状态集。seq2seq模型的流行，让这种解码算法的研究变得热门。在生成对话任务时，用经典的beam search会生成类似“我不知道”等这种没有营养的对话，虽然没有语法上的错误，而且可能在一定的评价体系内会得到不错的分数，但实际应用效果太差，因此diversity的研究变得热门。
本文针对diversity的问题，提出了一种改进版的beam search算法，旨在生成更加多样性的话。
新算法的主要思路是将经典算法中的Beam进行分组，通过引入一个惩罚机制，使得每一组的相似度尽量低，这一项保证了生成的话相互之间差异更大一些，即满足了多样性的需求，在每一组Beam中，用经典的算法进行优化搜索。具体的算法流程如下图：

image.png