上节课我们学习了束搜索,这次我们要学习一些能改进它的方式,其中之一就是长度归一化。
长度归一化
首先,由于在随着单词数量的增加,获取这个单词的概率是会随着乘积不断下降的(因为它的分叉越来越多),当下降到一定数值的时候计算机储存起来就有一些问题。那么这个时候我们可以改用log来进行储存,就可以保存所有的数值,比较好进行比较。
由于这个随着单词数量增加,会有概率不断变小这个问题,所以在模型当中往往会倾向于选择句子短的项目。(在这里要注意的是,并不是会选出来1个单词的句子,比如说He+<EOS>的概率会小于He is a man<EOS>的概率,所以还是会选后面那个)。
所以我们要对这个句子进行归一化,归一化的意思就是把整个计算量/计算单词的个数,这样算出来的就是平均值。
这个归一化还可以在上面加个幂参数α,这个alpha可以控制它归一化的程度,0~1里进行调整,越靠近1则归一化的程度越高。
搜索束宽度B
我们之前提到过,我们会使用一个超参数B来控制这个算法每次选择的最优值组合个数,B的值越大,搜索获得全局最优值的可能性就越大,但是计算的代价就越高,如何选取一个合理的B值在算法当中是非常重要的。
从1(贪心)-3-10(一般产品的参数)-1000-3000(科研当中为了获取尽量最优值的参数),参数的变化是根据使用场景进行调整的。
与我们在计算机当中学到的广度优先和深度优先算法不太相同的是,束搜索算法,不一定能找到整个题目当中最优的那个值,它是一个在保证计算数量和最优值取值的平衡当中取得更优秀表现的算法。
网友评论