美文网首页
1.1.02_过滤垃圾信息

1.1.02_过滤垃圾信息

作者: 资深小夏 | 来源:发表于2017-07-02 00:16 被阅读59次

过滤垃圾信 Filtering Spam

早期尝试对垃圾信息进行过滤所用的都是基于规则的分类器(rule-based classifiers),使用时会有人事先设计好一组规则,用以指明某条信息是否属于垃圾信息。典型的规则包括:英文大写字母的过度使用,与医学药品相关的单词,或是过于花哨的HTML用色等。

基于规则的分类器,其问题很快就显现了出来--垃圾信息制造者在知道了所有规则以后,为了绕开过滤器,其行为就会变得更加隐蔽;而且人们会发现,如果他们的父母不知道关闭大写锁定键(Caps Lock),一些正常的邮件也会被归类成垃圾邮件。

基于规则的过滤器还有另一个问题--是否被当作垃圾信息很大程度上因其所面对的读者和张贴位置的不同而不同。对于某一位特定用户、公告留言板或维基而言,那些可以用来明确指示是否垃圾信息的关键词,在其他场合下可能就会变得相当正常。

为了解决这一问题,本章所要考查的程序会在开始阶段和逐渐收到更多消息之后,根据人们提供给它的有关哪些是垃圾邮件,哪些不是垃圾邮件的信息,不断地进行学习。通过这样的方式,我们可以分别为不同的用户、群组或网站建立起各自的应用实例和数据集,它们对垃圾信息的界定将逐步形成自己的观点。

相关文章

  • 1.1.02_过滤垃圾信息

    过滤垃圾信 Filtering Spam 早期尝试对垃圾信息进行过滤所用的都是基于规则的分类器(rule-base...

  • 关于鸡汤,关于毒鸡汤,关于贩卖焦虑

    在现在这个信息时代,网络有太多垃圾信息,都需要我们建立一个过滤机制。 而过滤呢,只是为了过滤垃圾毒害,而非所有的都...

  • 即刻|如何从垃圾信息轰炸中全身而退?

    这个大量优质和垃圾并存的信息时代,最重要的不是寻找优质信息,而是过滤!过滤掉那些垃圾和你不喜欢的信息,给自己一个干...

  • 1.1.02_文档过滤 Document Filtering

    文档过滤 Document Filtering 文档分类是机器智能(machine intelligence)的一...

  • 信息过滤与反垃圾

    手段: 1.文本匹配 进行敏感词过滤,维护一个敏感词列表,用户发表的信息中含有敏感词,则进行消毒处理(将敏感词转换...

  • 《如何学习》——

    02 遗忘的威力:过滤干扰信息,激活深处的宝藏 1)遗忘的正面作用之一,就是大自然中最精致的“垃圾信息过滤”功能,...

  • NLP自然语言处理

    应用例子 垃圾邮件过滤 Spam Filtering 机器翻译 Machine Translation 信息检索 ...

  • 彭壮说社群:做社群如何过滤垃圾流量?

    1 一定要打造一套机制过滤垃圾流量。 这套过滤机制主要过滤3个点: 1、过滤垃圾人脉; 2、过滤垃圾流量; 3、过...

  • 如何学习第二章读后感

    遗忘的威力:过滤干扰信息,激活深处的宝藏 遗忘的正面作用之一,就是大自然中最精致的“垃圾信息过滤”功能,这一功能使...

  • 信息过滤科技与垃圾识别术

    盖茨基金会推免费开源软件 欲降低数字普惠金融服务开发成本 盖茨基金会期望,在使用这些源代码后,数字金融服务提供商和...

网友评论

      本文标题:1.1.02_过滤垃圾信息

      本文链接:https://www.haomeiwen.com/subject/cmtncxtx.html