手段:
1.文本匹配
进行敏感词过滤,维护一个敏感词列表,用户发表的信息中含有敏感词,则进行消毒处理(将敏感词转换成特殊字符)或者拒绝发表
正则表达式
适合敏感词较少且文本较少的情况
Trie树
敏感词多,文本多,高并发
多级Hash表
处理速度快,但浪费空间
2.分类算法
对垃圾信息或者广告贴进行过滤,贝叶斯分类算法。
手段:
进行敏感词过滤,维护一个敏感词列表,用户发表的信息中含有敏感词,则进行消毒处理(将敏感词转换成特殊字符)或者拒绝发表
适合敏感词较少且文本较少的情况
敏感词多,文本多,高并发
处理速度快,但浪费空间
对垃圾信息或者广告贴进行过滤,贝叶斯分类算法。
本文标题:信息过滤与反垃圾
本文链接:https://www.haomeiwen.com/subject/wjswmftx.html
网友评论