FASPell论文复现记录

作者: 鹰了个鹰 | 来源:发表于2020-03-30 09:06 被阅读0次

FASPell论文复现记录
FASPell中文纠错模型论文阅读
Multiagent cooperation and compe
GAN综述
7.14
全网良心论文复现！Centos 7.9 复现MAPPO出现的问题
使用Attentioned Dual-Stage RNN模型预测
【论文复现】无关键点的头部姿态估计《Fine-Grained H
ABSA经典结构代码
AdamOptimizer Loss Null

简介

最近在做FASPell的复现,遇到一些问题，做一个记录,此篇仅作FASPell README.md的补充。
FASPell是由爱奇艺出品的，针对ocr识别后的文本纠错模型，在SIGHAN15数据集上能够达到SOTA的效果。其论文发表在EMNLP上，代码在github当中开源。

原理

由于对论文及代码的细节还不是特别熟悉，所以难免有错漏，欢迎留言一起交流。
FASPell采用编码器解码器的方式，训练一个深度自动编码器和一个解码器进行纠错。其中，编码器的训练可以使用掩码语言模型BERT、XLNet、MASS等，BERT等语言模型的使用是为了避免检错数据不够时的过拟合问题。解码器则使用字音字形相似度帮助生成混淆集。文章有两个创新点，一是使用解码器解码的方式替代传统混淆集，解决混淆集不够灵活的缺点。二是使用IDS和CJK发音方法进行字音字形计算对候选集进行精准召回。