美文网首页
敏感词过滤

敏感词过滤

作者: 一一道长一一 | 来源:发表于2018-04-27 10:36 被阅读205次

    一、原句处理

    1.去除原句中的所有空格

    2.去除原句子中的所有标点符号,包含全角和半角的

    3.将所有的繁体中文替换成简体中文,工具ZHConverter

    4.所有的全角数字替换成半角数字,所有的全角字母替换成半角字母,所有的大写字母替换成小写字母

    二、使用敏感词库过滤

    1.敏感词库中所有空格和标点符号去除,大写字母替换成小写

    2.使用HashMap构建敏感词库DFA算法模型,见:https://www.jianshu.com/p/88d0751e1608

    3.使用DFA算法进行查找敏感词

    4.将有敏感词的句子屏蔽或删除

    三、替换敏感词

    如果只是想替换句子中的敏感词,可根据情况再一二的步骤中进行删减,以达到可替换的目的,比如不替换标点符号和转换大写等

    相关文章

      网友评论

          本文标题:敏感词过滤

          本文链接:https://www.haomeiwen.com/subject/augwzxtx.html