美文网首页
[翻译系统鲁棒性]构建一个noise的翻译数据集合

[翻译系统鲁棒性]构建一个noise的翻译数据集合

作者: VanJordan | 来源:发表于2019-04-15 16:55 被阅读0次

    MTNT: A Testbed for Machine Translation of Noisy Text

    第一部分制造数据集

    • 包含的错误类型,因为是直接从reddit上爬的数据,因此数据本身就具有很大的自然状态下的噪音。


    • 对比语料,可以认为是纯净的数据。



    • 对从reddit上面爬下来的数据进行过滤。

    • 然后进行Normalization,这一步骤只是为了检测出有什么noise()即下面的对数据进行分析的步骤,在releasecomments上没有进行Normalization


    • 只保留至少有一个OOV(相比于纯净数据集)的句子

    • 使用Language model选出置信度below 1%100的句子,认为这些数据是有噪音的数据。

    • 然后移除重复的句子,为了让句子的噪声不要太大然后选出LM得分在5-70 percentile的句子,最后随机挑选15000samples

    第二部分

    接着把这些数据让专业人士翻译,人工清除测试集中的翻译错误。


    • 上面那么多轮筛选,没被选中的句子构成了单语语料


    • 对数据集进行分析


    • 与现有测试集进行对比,发现noise的比例大增,这正是我们所需要的

    • 使用的是最简单的翻译模型加上BPE
    • 实验结果,在noise的训练集上进行finetune也不能在noise的测试集上表现的很好,因此这个数据集是非常有挑战的。
    • 因为要刷榜,作者强烈要求使用sacreBLEU


    • finetune的超参数。

    结论

    说明自己的数据集是一个好的数据集


    相关文章

      网友评论

          本文标题:[翻译系统鲁棒性]构建一个noise的翻译数据集合

          本文链接:https://www.haomeiwen.com/subject/pwzuwqtx.html