美文网首页
文本分类——1 初探

文本分类——1 初探

作者: shijiatongxue | 来源:发表于2019-03-12 13:43 被阅读0次

文本分类有很大的价值,如判断是否为垃圾邮件、判断用户的实时情绪、判断本文的主题是什么?这都是文本分类,与这三个例子相对应,文本分类分为二分类、多分类和多标签分类。

1.1 文本分类类型

  • 二分类:如垃圾邮件检测。
  • 多分类:如用户的情绪是属于非常消极,消极,中立,积极,非常积极中的哪一类?
  • 多标签:给微博的话题自动打上标签。

1.2 文本分类的步骤

  • 特征表示:词袋模型、TF-IDF等
  • 特征筛选:删除停用词、信息增益、互信息等
  • 模型选择:KNN、DT、神经网络,大规模用LR、NB、SVM等。

1.3 评价模型效果

类型 评价方法
二分类 Accuracy、Precision、Recall和F_1
多分类 Macro F1和Micro F1
多标签 Jaccard相似系数

1.4 方法

用于文本分类的方法有传统机器学习方法和现在流行的深度学习方法。

传统方法:

  • 朴素贝叶斯
  • TF-IDF + LR
  • 随机森林
  • 其他分类器(SVM,KNN等)

缺点:
数据稀疏和维数爆炸问题。解决办法是降维和特征筛选,如去掉停用词低频词等。

深度学习:

  • 词向量 + CNN
  • 词向量 + BiRNN
  • CNN + RNN

新技术:Capsule网络和Attention机制。


参考资料 :
深度学习文本分类在支付宝投诉文本模型上的应用
brightmart
中文文本分类对比(经典方法和CNN)
基于神经网络的词和文档语义向量表示方法研究
Google

相关文章

  • 文本分类——1 初探

    文本分类有很大的价值,如判断是否为垃圾邮件、判断用户的实时情绪、判断本文的主题是什么?这都是文本分类,与这三个例子...

  • Python篇—文本分类

    1.自然语言整体概览 文本分类方法集锦基于text-cnn文本分类基于SVM基于dnn的文本情感分析多类别文本分类...

  • 基于Text-CNN模型的中文文本分类实战

    1 文本分类 文本分类是自然语言处理领域最活跃的研究方向之一,目前文本分类在工业界的应用场景非常普遍,从新闻的分类...

  • 【NLP】文本分类

    文本分类:将计算机对文本按照一定分类标准进行自动分类标记。 应用场景: 1. 情感分析(Sentiment Ana...

  • 随风潜入夜,润物细无声

    主题型文本教学初探笔记(1) 定位: 主题型文本侧重于文学教育,它的“语言训练”是隐性的、柔性的,课堂目标直接指向...

  • 达观杯长文本分类

    1.参赛指导 1.1 背景 这个比赛是文本分类比赛,比传统的短文本(300词)分类难,现在是长文本(3000词)分...

  • 3.sklearn_classification

    1 Sklearn分类学习算法一览 1.1 机器学习算法选择 1.2 scikit-learn初探 scikit-...

  • 文本分类和情感分类(1)

    一、文本分类 如图所示,文本分类的大体流程如上: 文本的预处理本文不涉及(能考虑到的会涉及,标点符号处理、停用词处...

  • 文本分类V1

    outline 什么是文本分类 特征工程+分类器 TextCNN 什么是文本分类 文本分类是自然语言处理的一个基本...

  • iOS NSMutableAttributedString

    1: 父类 2: 方法 3: 分类 4: 属性文本

网友评论

      本文标题:文本分类——1 初探

      本文链接:https://www.haomeiwen.com/subject/hydgpqtx.html