1.简介
Bleu[1]是IBM在2002提出的,用于机器翻译任务的评价,发表在ACL,引用次数10000+,原文题目是“BLEU: a Method for Automatic Evaluation of Machine Translation”。
它的总体思想就是准确率,假如给定标准译文reference,神经网络生成的句子是candidate,句子长度为n,candidate中有m个单词出现在reference,m/n就是bleu的1-gram的计算公式。
BLEU还有许多变种。根据n-gram可以划分成多种评价指标,常见的指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种,其中n-gram指的是连续的单词个数为n。
BLEU-1衡量的是单词级别的准确性,更高阶的bleu可以衡量句子的流畅性。
2.计算公式
分子释义
神经网络生成的句子是candidate,给定的标准译文是reference。
1) 第一个求和符号统计的是所有的candidate,因为计算时可能有多个句子,
2)第二个求和符号统计的是一条candidate中所有的n−gram,而表示某一个n−gram在reference中的个数。
所以整个分子就是在给定的candidate中有多少个n-gram词语出现在reference中。
分母释义
前两个求和符号和分子中的含义一样,Count(n-gram')表示n−gram′在candidate中的个数,综上可知,分母是获得所有的candidate中n-gram的个数。
3. 示例
candidate: the cat sat on the mat
reference: the cat is on the mat
那么各个bleu的值如下:
就 ,对 candidate中的5个2-gram,{the cat,cat sat,sat on,on the,the mat} ,查找是否在reference中,发现有3个词在reference中,所以占比就是0.6
参考
BLEU详解 - 人工智能的文章 - 知乎
https://zhuanlan.zhihu.com/p/223048748
网友评论