美文网首页
文本分类part1

文本分类part1

作者: 璐瑶97 | 来源:发表于2019-01-22 16:15 被阅读0次

1.基础知识

1.1 文本分类为有监督学习,需要整理样本,确定样本标签与数目。

1.2文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识过程

2.文本分类的方法

2.1 基于模式系统

2.2基于分类系统:机器学习的方法采用预分类,通过训练建立分类。

3.构建文本分类项目

中文文本分类技术和流程:

3.1 预处理:去噪

3.2中文分词:分词,去除停用词

3.3构建词向量空间:统计文本词频,生成文本词向量空间

3.4TFIDF:使用TFIDF抽取文本特征

3.5训练分类器

3.6模型评估

4.简单文本分类项目

4.1文本预处理

4.2中文分词

    目前所有项目暂时都是用jieba分词

4.3去除停用词,进行词频统计

4.4文本向量化、生向量空间模型

1)对样本进行分词

2)根据已经生成的词典,在相应位置填入该词的词频

3)对生成的向量进行归一化.  常用的特征选择计算方式为TF*IDF TF*RF

4.4.1 特征选择

(1)向量空间模型(VSM)======确定特征集和提取特征

4.4.2 确定特征集

5.特征选择

一般计算方法:词频、卡方公式、信息增益

目前打算尝试的特征选择:Textrank

6.模型训练与预测

当把文本转换成向量形式后,就可以利用算法进行训练和预测。

当前文本分类的算法有:朴素贝叶斯,SVM,KNN,逻辑回归

7.分类结果评估

7.1召回率

7.2准确率

7.3交叉检验

相关文章

  • 文本分类part1

    1.基础知识 1.1 文本分类为有监督学习,需要整理样本,确定样本标签与数目。 1.2文本挖掘是指从大量文本数据中...

  • 文本分类V1

    outline 什么是文本分类 特征工程+分类器 TextCNN 什么是文本分类 文本分类是自然语言处理的一个基本...

  • 文本分类;数据增强;模型微调 2020-02-25

    文本分类 文本情感分类数据集 使用循环神经网络进行情感分类 使用卷积神经网络进行情感分类文本分类是自然语言处理的一...

  • Python篇—文本分类

    1.自然语言整体概览 文本分类方法集锦基于text-cnn文本分类基于SVM基于dnn的文本情感分析多类别文本分类...

  • WWDC2018之Create ML(二)

    在上一篇我们主要讲了如何用CreateML分类图片,那么这一次,我们使用文本分类的功能。 何为文本分类? 文本分类...

  • 文本分类

    文本分类的一般流程: 预处理 文本表示及特征选择 构造分类器 分类 文本分类的应用 垃圾邮件的判定:是否为垃圾邮件...

  • 2018-11-10

    LSTM的应用 文本分类LSTM文本分类:使用LSTM的最后一个状态 文本分类中不用one-hot编码,使用emb...

  • 卷积神经网络CNN的文本分类原理和实战

    基于卷积神经网络CNN的文本分类原理和实战 前言 本文介绍了CNN在NLP中的应用:文本分类。 文本分类:是自然语...

  • 基于Text-CNN模型的中文文本分类实战

    1 文本分类 文本分类是自然语言处理领域最活跃的研究方向之一,目前文本分类在工业界的应用场景非常普遍,从新闻的分类...

  • Explicit Interaction Model towar

    文本分类的显式交互模型 摘要   文本分类是自然语言处理的基本任务之一。最近,与浅模型相比,深度神经网络在文本分类...

网友评论

      本文标题:文本分类part1

      本文链接:https://www.haomeiwen.com/subject/xxfrjqtx.html