纠正拼写任务
1、拼写任务
- 发现拼写错误
- 纠正拼写错误
- 自动纠正
- 给出纠正建议(一个词)
- 给出纠正建议(一些词)
2、拼写错误的类型
- 拼写出来的不是单词(Non-word spelling errors):错误的单词不存在词典中;比如 graffe——giraffe
- 拼写出来的是另一个单词(real-word erros):拼写错误,错误的单词存在于字典中
- 打字(Typographical)错误:three——threr
- 认知错误(同音异性):too——two
3、拼写出来的不是单词的错误(non-word spelling errors)
- 错误发现:预先有一个字典,任何不在字典中的单词就是错误,字典越大越好;
- 错误纠正:
- 生成修正可选项:和错误相似的实际单词
- 选择最好的那个:
- 最短加权编辑距离
- 最高噪音通道(noisy channel)概率
4、拼写出来是另一个单词(real word spelling errors)
- 对每一个单词,生成一个候选集(candidate set)
- 找到发音相似的候选词
- 找到拼写相似的候选词
- 把w也放到候选集中
- 选择最好的候选词
- 噪音通道
- 分类
二、拼写的噪音通道(noisy channel)
1、噪音通道模型
- 初始想法:一开始初始单词(original word)经过噪音通道(noisy channel)会生成噪音单词(noisy word)。我们通过对噪音单词的解码得到猜测的单词(guessed word)。
2、从拼写出来的不是单词的错误(non-word spelling error)开始
- 错误是:acress
- 候选词生成(candidate generation)
- 相似拼写的单词:找到最小的编辑距离
- 相似的发音的单词:找到发音的最小的编辑距离
代码实现(待补充)
- https://blog.csdn.net/kunpen8944/article/details/83066460
- https://www.jianshu.com/p/bf6adc147bc0
- https://www.cnblogs.com/hapjin/p/7467035.html
- http://norvig.com/spell-correct.html
- http://norvig.com/spell-correct.html
- http://chenhao.space/post/409250ae.html#%E9%99%84-%E8%AF%AD%E6%96%99%E5%BA%93%E5%9F%BA%E6%9C%AC%E5%87%BD%E6%95%B0%E8%A1%A8
- https://blog.csdn.net/weixin_43781538/article/details/102652503
- http://52opencourse.com/138/%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E7%AC%AC%E4%BA%94%E8%AF%BE-%E6%8B%BC%E5%86%99%E7%BA%A0%E9%94%99%EF%BC%88spelling-correction%EF%BC%89
网友评论