拼写纠正与噪音通道

作者: dreampai | 来源:发表于2019-10-15 17:13 被阅读0次

    纠正拼写任务

    1、拼写任务

    • 发现拼写错误
    • 纠正拼写错误
      • 自动纠正
      • 给出纠正建议(一个词)
      • 给出纠正建议(一些词)

    2、拼写错误的类型

    • 拼写出来的不是单词(Non-word spelling errors):错误的单词不存在词典中;比如 graffe——giraffe
    • 拼写出来的是另一个单词(real-word erros):拼写错误,错误的单词存在于字典中
      • 打字(Typographical)错误:three——threr
      • 认知错误(同音异性):too——two

    3、拼写出来的不是单词的错误(non-word spelling errors)

    • 错误发现:预先有一个字典,任何不在字典中的单词就是错误,字典越大越好;
    • 错误纠正:
      • 生成修正可选项:和错误相似的实际单词
      • 选择最好的那个:
        • 最短加权编辑距离
        • 最高噪音通道(noisy channel)概率

    4、拼写出来是另一个单词(real word spelling errors)

    • 对每一个单词,生成一个候选集(candidate set)
      • 找到发音相似的候选词
      • 找到拼写相似的候选词
      • 把w也放到候选集中
    • 选择最好的候选词
      • 噪音通道
      • 分类

    二、拼写的噪音通道(noisy channel)

    1、噪音通道模型

    • 初始想法:一开始初始单词(original word)经过噪音通道(noisy channel)会生成噪音单词(noisy word)。我们通过对噪音单词的解码得到猜测的单词(guessed word)。

    2、从拼写出来的不是单词的错误(non-word spelling error)开始

    • 错误是:acress
    • 候选词生成(candidate generation)
      • 相似拼写的单词:找到最小的编辑距离
      • 相似的发音的单词:找到发音的最小的编辑距离

    代码实现(待补充)

    相关文章

      网友评论

        本文标题:拼写纠正与噪音通道

        本文链接:https://www.haomeiwen.com/subject/snpsmctx.html