美文网首页大数据,机器学习,人工智能大数据 爬虫Python AI Sql玩转大数据
【大数据部落】weka文本挖掘分析垃圾邮件分类模型

【大数据部落】weka文本挖掘分析垃圾邮件分类模型

作者: 拓端tecdat | 来源:发表于2020-04-19 19:34 被阅读0次

原文链接:http://tecdat.cn/?p=4027

need-to-insert-img

业务背景

电子邮件的应用变的十分广泛,它给人们的生活带来了极大的方便,然而,作为其发展的副产品——垃圾邮件,却给广大用户、网络管理员和ISP(Internet服务提供者)带来了大量的麻烦。垃圾邮件问题日益严重,受到研究人员的广泛关注。 垃圾邮件通常是指未经用户许可,但却被强行塞入用户邮箱的电子邮件。对于采用群发等技术的垃圾邮件,必须借助一定的技术手段进行反垃圾邮件工作。目前,反垃圾邮件技术主要包括:垃圾邮件过滤技术、邮件服务器的安全管理以及对简单邮件通信协议(SMTP)的改进研究等。

WEKA文本分词预处理

首先对于训练集文件夹中的两类邮件文档进行分析,可从不同角度自动化分析两类文件特征,编写算法,构建分类模型。

首先设置工作目录,并且读取分类后的文本文件

可以看到垃圾邮件和非垃圾邮件的频数直方图​

need-to-insert-img

need-to-insert-img

然后对得到的原始语料进行分词处理得到词频矩阵文件

need-to-insert-img

得到各个词频的分类直方图​

need-to-insert-img

得到词频矩阵后对数据进行分类器的建模

2.对corpus中的attribute进行分析,找出对于分类有贡献的attribute(即那些词只出现在positive中,那些词只出现在negative中,哪些词在两个类别里都出现)

3.找出区分positive和negative的分类规则(即哪些词在一起出现的时候会导致分类器判断的结果为positive,哪些词在一起出现的时候会导致分类器判断的结果为negative)

从结果可以看出cell efficiengcy however breast rates和cell这些词对最后的分类结果有较大的影响如有however的一般为负面词。

WEKA文本分词结果比较

下面得到每个分类器的准确度和混淆矩阵:

NaiveBayes

Logistic​

need-to-insert-img

J48

RandomForest​

need-to-insert-img

SVM​

need-to-insert-img

OneR​

need-to-insert-img

结语

基于判别方法的垃圾邮件过滤在现代研究中引起比较少的关注 ,结果很清楚地表明,基于随机森林、SVM模型的分类方法相对于传统的方法,在垃圾邮件的过滤方面,可以有效地提高正确率和准确率。

有问题欢迎联系我们!

相关文章

  • 【大数据部落】weka文本挖掘分析垃圾邮件分类模型

    原文链接:http://tecdat.cn/?p=4027 ​ need-to-insert-img 业务背景 电...

  • 【大数据部落】WEKA垃圾邮件文本挖掘分类模型

    业务背景 电子邮件的应用变的十分广泛,它给人们的生活带来了极大的方便,然而,作为其发展的副产品——垃圾邮件,却给广...

  • 数据分析04 - 朴素贝叶斯

    标签(空格分隔): 数据分析 朴素贝叶斯分类最适合的场景就是文本分类、情感分析和垃圾邮件识别。其中情感分析和垃圾邮...

  • 文本分类

    文本分类的一般流程: 预处理 文本表示及特征选择 构造分类器 分类 文本分类的应用 垃圾邮件的判定:是否为垃圾邮件...

  • 为什么这么喜欢perl?

    perl introduction 在生物信息分析过程中,主要有两大主体,生物信息文本挖掘和数据分析。说到文本挖掘...

  • Python数据挖掘010-分类与回归建模

    数据挖掘可以大概分为:分类与回归,聚类分析,关联规则,时序模式,异常检测等模型。 分类主要是预测分类标号,即离散属...

  • 使用weka进行文本分类

    任务: 使用Weka完成一个简单的文本分类试验,原始数据是文本,训练文本和测试文本的内容都描述了篮球运动和谷歌地...

  • [WEKA] 1 概览

    A LITTLE BIT OF EVERYTHING 什么是数据挖掘?什么是Weka? 数据挖掘是一门成熟的技术,...

  • weka-Explorer-Classify的使用

    一、实验目的 学习使用 weka 中的常用分类器,完成数据分类任务。 二、实验内容 了解 weka 中 explo...

  • python数据分析与挖掘 | 挖掘建模

    经过数据探索与数据预处理,得到了可以直接建模的数据。根据挖掘目标和数据形式可以建立模型,包括:分类与预测、聚类分析...

网友评论

    本文标题:【大数据部落】weka文本挖掘分析垃圾邮件分类模型

    本文链接:https://www.haomeiwen.com/subject/cysbbhtx.html