系统设计实例:
给定一组电子邮件数据集,我们可以为每封电子邮件构建一个向量。 此向量中的每个条目代表一个单词。 通过查找数据集中最常用的单词,向量通常包含10,000到50,000个条目。 如果要在电子邮件中找到一个单词,我们会将其各自的条目指定为1,否则如果找不到,则该条目将为0.一旦我们准备好所有x向量,我们训练我们的算法,最后, 我们可以用它来分类电子邮件是否是垃圾邮件。
构建垃圾邮件分类器 构建垃圾邮件分类器那么你怎么能花时间提高这个分类器的准确性呢?
收集大量数据(例如“蜜罐”项目,但并不总是有效)
开发复杂的功能(例如:在垃圾邮件中使用电子邮件标题数据)
开发算法以不同方式处理您的输入(识别垃圾邮件中的拼写错误)。
很难说哪个选项最有用。
网友评论