文档过滤 Document Filtering
文档分类是机器智能(machine intelligence)的一个非常实用的应用,而且越来越普及。其中,最有价值也是人们所熟知的应用,恐怕要数垃圾邮件过滤了。
这里介绍的算法更为一般,并不是专门针对垃圾信息的,它可以学习并鉴别文档所属的分类,因此我们还可以将其应用于一些相比垃圾信息而言不那么令人生厌的问题。比如根据邮件的征文自动将收件箱中的邮件划分为社交类邮件和工作类邮件等。
过滤垃圾信 Filtering Spam
早期的垃圾信息过滤都是基于规则的分类器(rule-based classifiers),典型的规则包括:
- 英文大写字母的过度使用
- 与医学药品相关的单词
- 过于花哨的HTML用色等。
基于规则的分类器的问题:
- 垃圾信息制造者知道规则以后,绕开过滤器
- 误输入(忘记关闭大写锁定键(Caps Lock))导致误分类
- 分类过于依赖用户
为了解决这一问题,程序会在开始阶段和逐渐收到更多消息之后,根据人们提供给它的有关哪些是垃圾邮件,哪些不是垃圾邮件的信息,不断地进行学习。通过这样的方式,我们可以分别为不同的用户、群组或网站建立起各自的应用实例和数据集,它们对垃圾信息的界定将逐步形成自己的观点。
网友评论