BLEU

作者: Jarkata | 来源:发表于2021-05-06 22:34 被阅读0次

1.简介

Bleu[1]是IBM在2002提出的,用于机器翻译任务的评价,发表在ACL,引用次数10000+,原文题目是“BLEU: a Method for Automatic Evaluation of Machine Translation”。

它的总体思想就是准确率,假如给定标准译文reference,神经网络生成的句子是candidate句子长度为n,candidate中有m个单词出现在reference,m/n就是bleu的1-gram的计算公式。

BLEU还有许多变种。根据n-gram可以划分成多种评价指标,常见的指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种,其中n-gram指的是连续的单词个数为n。

BLEU-1衡量的是单词级别的准确性更高阶的bleu可以衡量句子的流畅性

2.计算公式


分子释义

神经网络生成的句子是candidate,给定的标准译文是reference。

1) 第一个求和符号统计的是所有的candidate,因为计算时可能有多个句子,

2)第二个求和符号统计的是一条candidate中所有的n−gram,而

表示某一个n−gram在reference中的个数。

所以整个分子就是在给定的candidate中有多少个n-gram词语出现在reference中。

分母释义

前两个求和符号和分子中的含义一样,Count(n-gram')表示n−gram′在candidate中的个数,综上可知,分母是获得所有的candidate中n-gram的个数。

3. 示例

candidate: the cat sat on the mat
reference: the cat is on the mat

那么各个bleu的值如下:

bleu_2 ,对 candidate中的5个2-gram,{the cat,cat sat,sat on,on the,the mat} ,查找是否在reference中,发现有3个词在reference中,所以占比就是0.6

参考

BLEU详解 - 人工智能的文章 - 知乎
https://zhuanlan.zhihu.com/p/223048748

相关文章

网友评论

      本文标题:BLEU

      本文链接:https://www.haomeiwen.com/subject/mrjmqltx.html