垃圾邮件分类

作者: 本凡_大数据_机器学习 | 来源:发表于2019-04-02 18:54 被阅读1次

本文使用python基于贝叶斯算法进行邮件分类,具体步骤如下:

贝叶斯公式P(B/A)=(P(A/B)\cdot P(B))/P(A)

python使用贝叶斯公式步骤如下:

打开所在文件:

with open("d:/sms_spam1.txt","r")as f:

将文件处理,分成 label 和 feature :

#按行读取文件

line = f.readline()

#文件每一行按逗号隔开为 label 和 feature

line1 = line.split(",")

label = line1[0]

corpu = line1[1]

#将feature和 label分别存入list中,并分为测试集和训练集

corpus.append(corpu)

if 'ham'==label:

labels.append(0)

elif 'spam'==label:

labels.append(1)

#30行之后为测试集

if count>30:

corpus_test.append(corpu)

if 'ham' ==label:

labels_test.append(0)

elif 'spam'==label:

labels_test.append(1)

#文本特征提取:

#将文本特征转换为特征向量的过程

#采用词袋法进行文本特征提取

#词袋法:

#将文章中出现过的词作为一列特征

#这些不重复的特征词汇集合为词表

#构建词袋

vectorize = CountVectorizer()

#fea_train是每一封邮件中出现词表中词汇个数的矩阵

fea_train = vectorize.fit_transform(corpus)

#从第一个词表中创建第二个词表

vectorize2 = CountVectorizer(vocabulary=vectorize.vocabulary_)

#生成测试邮件中出现词表中词汇个数的矩阵

fea_test = vectorize2.fit_transform(corpus_test)

#拉普拉斯估计给每个单词加一,alpha的设定

#训练

clf = MultinomialNB(alpha=1)

clf.fit(fea_train,labels)

#预测

pred = clf.predict(fea_test)

for p  in pred:

if p==0:

print("正常邮件")

else:

print("垃圾邮件")

相关文章

  • 哲哲的ML笔记(二十二:ML系统的设计-垃圾邮件分类)

    任务 实现垃圾邮件分类(spam or not spam) 参数确定 y=0:不是垃圾邮件,y=1是垃圾邮件 邮件...

  • 文本分类

    文本分类的一般流程: 预处理 文本表示及特征选择 构造分类器 分类 文本分类的应用 垃圾邮件的判定:是否为垃圾邮件...

  • 吴恩达机器学习笔记 - 逻辑回归

    问题提出 生活中分类问题垃圾邮件或者不是垃圾邮件,肿瘤或者不是肿瘤...分类值y = 1或者y = 0,定义逻辑回...

  • 机器学习系统设计(一)

    确定工作的优先级 以垃圾邮件分类器算法为例,要对垃圾邮件分类,我们首先要确定特征变量x,且其个数通常不超过100。...

  • 垃圾邮件分类

    本文使用python基于贝叶斯算法进行邮件分类,具体步骤如下: 贝叶斯公式 python使用贝叶斯公式步骤如下: ...

  • 第十二天 贝叶斯垃圾邮件分类

    这节的目标是实现垃圾邮件分类,俗话说巧妇难为无米之炊,要实现垃圾邮件分类,首先要有数据,这里我使用kaggle提供...

  • 吴恩达机器学习—机器学习系统的构建

    引例——垃圾邮件分类 我们如何将垃圾邮件和普通邮件分开呢,将垃圾邮件标记为1,普通邮件标记为0。我们首先要做的就是...

  • Machine Learning - Andrew Ng 笔记(

    分类问题(Classification) 首先什么是分类问题?分类问题就是预测的值是离散的,比如是否是垃圾邮件(是...

  • 我们日常使用的机器学习

    机器学习的几类 线性分类器如垃圾邮件 众所周知,我们使用qq邮箱时候,有一些邮箱会被标记为垃圾邮件。算法会根据里面...

  • 3.1.1 监督学习

    分类:对象的类别预测。 回归:预测数值轴上的特定点。 1、分类 1.1 现经常用于: 垃圾邮件过滤 语言检测 搜索...

网友评论

    本文标题:垃圾邮件分类

    本文链接:https://www.haomeiwen.com/subject/dxpwbqtx.html