【互联网潜规则（二）】敏感词屏蔽

作者: 荞麦和小乔 | 来源:发表于2017-07-03 22:44 被阅读235次

【互联网潜规则（二）】敏感词屏蔽
啥是敏感词？
Laravel屏蔽敏感词
敏感词匹配算法记录
分享几个不错的博客文章
iOS 聊天消息屏蔽关键词、敏感词、非法词
微一案：注意！微商人必看，你正使用的这些敏感词违规了！
无题补发
大一新生18条潜规则,导致毕业后天壤之别
PHP敏感词汇屏蔽或替换

前言

全文约1800字，阅读需3分钟。

最近对直播比较感兴趣，被问到一个问题——如何屏蔽弹幕中的不良内容？于是便有了如下的学习内容。不止是弹幕噢~

什么是敏感词汇？

Q：哪些词算是敏感词汇？

A：敏感词可大致分为以下几类：政治相关和人名、迷信邪教、黄赌毒、枪支弹药类、骂人讽刺类、时事类、广告和非法信息、其他。（网上有很多专门的敏感词库，我在网盘里上传了一份名为百度内部的敏感词文件，仅供查看https://pan.baidu.com/s/1o8xtX1K。如果失效了，请关注我的公众号乱入花间化绿叶，回复“敏感词”）

Q：哪些地方容易出现敏感词？

A：所有传播的信息都需要，发送这些垃圾信息的人或者团队被称为“垃圾虫”。

敏感词不仅出现在社区论坛、IM聊天、影音娱乐等的评论或上传信息区域，还隐藏在头像、昵称和签名这种地方，需要全面鉴别。

Q：哪些地方需要屏蔽？

A：平常我们主要做的屏蔽是广告过滤、黄赌毒、暴力恐怖、谣言排查等几种。不同的场合屏蔽的级别不同，而且基于传播时效性的不同，屏蔽方式分为同步过滤和异步召回。

比如弹幕的鼻祖——B站，为了保持弹幕的质量，它还需要屏蔽一些刷屏的、内容尴尬的弹幕，这些内容不算敏感，只是让人不喜欢。更有甚者，用户可以根据颜色、字体大小、展示方式甚至自定义的文本来进行屏蔽，同时，在视频右边还有专门的弹幕栏，也就是说，我可以弹幕内容当做评论一条条地看而不受其干扰。如图所示：

怎么屏蔽不良信息？

Q：目前的技术怎么进行屏蔽？

A：综合说来，技术屏蔽手段主要通过特征库、语义分析、机器学习等方法来展开。网易易盾对此分了三类：垃圾发现、垃圾识别、垃圾处理。（以下综合易盾和joylnwang的博客整理而成。）

Q：垃圾发现和垃圾识别有什么区别？

A：不穷的新垃圾（需要学习），垃圾识别是根据原有的垃圾库来识别（需要更新）。

Q：垃圾发现（针对新垃圾）的技术实现是怎样的？

A：①用户举报：主要是指用户在使用产品过程中遇到不良信息，于是进行投诉。

为了保证投诉的效果，我们需要在举报的便捷性、显眼展示和奖励机制上花一些功夫去做，同时还需要建立科学的举报分类，不仅方便用户选择，还能极大地帮助反垃圾训练特征样本，综合来做才能有更好的效果。

②内容聚合：主要是通过判断内容的相似性，从而确定是否为垃圾信息。

就文本来说，相似度分为两个层面，第一是基于编辑距离的文本相似度计算，这种算法是根据一段文字如何经过增删、移动而转化为另一段文字的操作步数，来计算两段文字的相似程度，运算的时间和空间复杂度都很高，对于评论，标题这样的短文本往往能获得不错的效果，缺点是对长文本不太适用，且没有考虑文本中意群的重要性。

第二个层面涉及到自然语言处理的相关知识，需要在原始文本中切分出有意义的Term，然后对于两篇文章的Term集合，运算得出文本的相似程度。复杂性上要高于前者，但在处理长文本的方面有优势，而且更有可能从意义的角度识别出相似的文本族。（来源http://blog.csdn.net/joylnwang/article/details/6831565）

③蜜罐系统：主要是针对专业的垃圾虫团体。

通常垃圾虫都有特定的工具协助，而这些工具大多会分析页面元素并进行调用。

如果在页面中埋伏一些“蜜罐”，正常的用户无法看到这些入口，但是程序会直接调用这些入口进行垃圾信息发送。比如某一些隐藏的评论主题，只有程序才会去抓取这些主题并对它们发送垃圾信息。那么进了这些“蜜罐”里的人，都可以被判断为非正常的用户。

Q：垃圾识别是指什么？

A：①特征匹配：主要是基于已有垃圾特征进行匹配。

对文本来说，建立敏感词库就可以直接屏蔽相关词句，同时，对于文字的变种比如简转繁、加空格、形近字、音近字，都可以有效识别。

对图片来说，主要是MD5、鲁棒哈希、Sift特征识别等手段。对于音频和视频也支持MD5匹配。（原谅我实在不能理清后面几种手段的具体技术实现，不能展开讲，有兴趣的可以百度。）

总之，这几种手段可以支持人像识别、动漫识别、相似匹配、图片旋转裁剪、改变亮度色调、水印识别等，基本囊括了所有的不良图片。

②模型匹配：主要是基于机器学习，可以在没有具体特征样本库的情况下识别内容的分类。

音频文件也通过大量语料学习能把语音转换成文本，然后进入文本匹配过程。

视频则通过截图的方式转换成为图片识别。

③规则匹配：也叫模式匹配，分为正则表达式、多模式匹配算法、基于元数据的定制等。

百度里的定义是：模式匹配是数据结构中字符串的一种基本运算，给定一个子串，要求在某个字符串中找出与该子串相同的所有子串。比如自定义规则：同IP下5分钟内发送内容相似度超80%的封禁1小时。

Q：垃圾操作是怎么操作？

A：①基础处理：删除内容，封禁内容，封禁用户，删除用户，封禁IP，封禁设备等常规手段。

②隐蔽操作：普通的屏蔽操作容易被垃圾虫感知，当他们发现被屏蔽时，会想办法来“破解”反垃圾，故需要进行隐形屏蔽。

比较常见的做法有：垃圾发送接口返回成功，但实际仅用户自己可见。例如直播中的弹幕，进行虚拟展示，仅用户自己可见，其他人都看不到。

③后续操作：每天把删除的垃圾内容汇总到内部分拣平台，由专业人员进行分析和对数据的分拣标记，完成各种模型以及规则的升级。

以上内容可解决大部分的敏感内容屏蔽问题，如有疑议，可在评论区回复，欢迎一起探讨~

全文完。【互联网潜规则（一）】作弊与反作弊，链接是http://www.jianshu.com/p/d24633e411ee

网友评论

本文标题：【互联网潜规则（二）】敏感词屏蔽

本文链接：https://www.haomeiwen.com/subject/llazcxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

【互联网潜规则（二）】敏感词屏蔽

前言

什么是敏感词汇？

Q：哪些词算是敏感词汇？

Q：哪些地方容易出现敏感词？

Q：哪些地方需要屏蔽？

怎么屏蔽不良信息？

Q：目前的技术怎么进行屏蔽？

Q：垃圾发现和垃圾识别有什么区别？

Q：垃圾发现（针对新垃圾）的技术实现是怎样的？

Q：垃圾识别是指什么？

Q：垃圾操作是怎么操作？

相关文章

【互联网潜规则（二）】敏感词屏蔽

啥是敏感词？

Laravel屏蔽敏感词

敏感词匹配算法记录

分享几个不错的博客文章

iOS 聊天消息屏蔽关键词、敏感词、非法词

微一案：注意！微商人必看，你正使用的这些敏感词违规了！

无题补发

大一新生18条潜规则,导致毕业后天壤之别

PHP敏感词汇屏蔽或替换

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

数据科学

产品经理

@产品

【互联网潜规则（二）】敏感词屏蔽

​前言

什么是敏感词汇？

Q：哪些词算是敏感词汇？

Q：哪些地方容易出现敏感词？

Q：哪些地方需要屏蔽？

怎么屏蔽不良信息？

Q：目前的技术怎么进行屏蔽？

Q：垃圾发现和垃圾识别有什么区别？

Q：垃圾发现（针对新垃圾）的技术实现是怎样的？

Q：垃圾识别是指什么？

Q：垃圾操作是怎么操作？

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

前言