美文网首页
文本分类V1

文本分类V1

作者: neo_ng | 来源:发表于2019-08-08 13:31 被阅读0次

outline

  • 什么是文本分类
  • 特征工程+分类器
  • TextCNN

什么是文本分类

文本分类是自然语言处理的一个基本任务,试图推断出给定的文本(句子、文档等)的标签或标签集合,其应用非常广泛,比如:垃圾过滤,新闻分类,词性标注等等。

评价指标

文本分类的性能评价指标主要是召回率(recall)、准确率(precision)、F1-measure,以及用于评价全局性能的宏平均(macro-average)和微平均(micro-average)。

二分类:accuracy,precision,recall,f1-score,...
多分类: Micro-Averaged-F1, Macro-Averaged-F1, ...
多标签分类:Jaccard相似系数, ...

特征工程+分类器

传统的机器学习方法主要利用自然语言处理中的n-gram概念对文本进行特征提取,并且使用TFIDF对n-gram特征权重进行调整,然后将提取到的文本特征输入到Logistics回归、SVM等分类器中进行训练。这也是一个通用的分类任务解决框架。

中文文本分类一个实现

文本预处理

中文文本分类中,分词是必不可少的环节

文本特征提取/文本表示
  • 向量空间模型(VSM)
  • 语义的文本表示方法
    比如LDA主题模型、LSI/PLSI概率潜在语义索引等方法,一般认为这些方法得到的文本表示可以认为文档的深层表示,
  • word embedding文本分布式表示方法
    词向量
特征选择

文本分类中最常用的选择特征的方法就是:对每个词根据TF/IDF,互信息量,信息增益,χ2统计量之一计算一个值,并且从大到小排序,然后设定一个阈值,取出所有大于阈值的词作为特征值组成特征向量。

  • TF/IDF
  • 互信息量
  • 信息增益
  • χ2统计量

其它特征选择方法可参考机器学习-特征工程

fastText

fastText的核心思想:将整篇文档的词及n-gram向量叠加平均得到文档向量,然后使用文档向量做softmax多分类
fastText 方法包含三部分:模型架构、层次 Softmax 和 N-gram 特征。
Facebook开源的fastText工具也实现了词向量的训练,使用其可挖掘同近义词

模型架构:fastText 模型输入一个词的序列(一段文本或者一句话),输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量,特征向量通过线性变换映射到中间层,中间层再映射到标签。fastText 在预测标签时使用了非线性激活函数,但在中间层不使用非线性激活函数。

层次softmax:在某些文本分类任务中类别很多,计算线性分类器的复杂度高。为了改善运行时间,fastText 模型使用了层次 Softmax 技巧。层次 Softmax 技巧建立在哈夫曼编码的基础上,对标签进行编码,能够极大地缩小模型预测目标的数量。

N-gram 特征:fastText 可以用于文本分类和句子分类。不管是文本分类还是句子分类,我们常用的特征是词袋模型。但词袋模型不能考虑词之间的顺序,因此 fastText 还加入了 N-gram 特征。

模型架构

fastText 模型架构和 Word2Vec 中的 CBOW 模型很类似。不同之处在于,fastText 预测标签,而 CBOW 模型预测中间词。

层次SoftMax
N-gram特征

在文本特征提取中,常常能看到n-gram的身影。它是一种基于语言模型的算法,基本思想是将文本内容按照字节顺序进行大小为N的滑动窗口操作,最终形成长度为N的字节片段序列。
FastText:快速的文本分类器

fastText原理及实践(达观数据王江)

TextCNN

下图为TextCNN的流程图


Screen-Shot-2015-11-06-at-8.03.47-AM-1024x413.png

下图为CNN的网络结构


Screen-Shot-2015-12-10-at-10.13.50-AM1-1024x525.png

具体细节参考Implementing a CNN for Text Classification in TensorFlow
在TextCNN中,第一层的作用是将词嵌入低维度向量,第二层使用多尺度卷积核进行卷积,然后使用max-pooling后将最后一层reshape为一个长向量,增加dropout正则,然后使用softmax进行分类
在这个实现中,作者将每个文本都pad到最大max_document_length,然后用词向量排列成一个矩阵

其它参考文献

文本分类解决方法综述

文本分类简介
基于深度学习的大规模多标签文本分类任务总结

深度学习在文本分类中的应用

相关文章

  • 文本分类V1

    outline 什么是文本分类 特征工程+分类器 TextCNN 什么是文本分类 文本分类是自然语言处理的一个基本...

  • 文本分类;数据增强;模型微调 2020-02-25

    文本分类 文本情感分类数据集 使用循环神经网络进行情感分类 使用卷积神经网络进行情感分类文本分类是自然语言处理的一...

  • Python篇—文本分类

    1.自然语言整体概览 文本分类方法集锦基于text-cnn文本分类基于SVM基于dnn的文本情感分析多类别文本分类...

  • WWDC2018之Create ML(二)

    在上一篇我们主要讲了如何用CreateML分类图片,那么这一次,我们使用文本分类的功能。 何为文本分类? 文本分类...

  • 文本分类

    文本分类的一般流程: 预处理 文本表示及特征选择 构造分类器 分类 文本分类的应用 垃圾邮件的判定:是否为垃圾邮件...

  • 2018-11-10

    LSTM的应用 文本分类LSTM文本分类:使用LSTM的最后一个状态 文本分类中不用one-hot编码,使用emb...

  • 卷积神经网络CNN的文本分类原理和实战

    基于卷积神经网络CNN的文本分类原理和实战 前言 本文介绍了CNN在NLP中的应用:文本分类。 文本分类:是自然语...

  • 基于Text-CNN模型的中文文本分类实战

    1 文本分类 文本分类是自然语言处理领域最活跃的研究方向之一,目前文本分类在工业界的应用场景非常普遍,从新闻的分类...

  • 手机壁纸API

    不分类别获取壁纸接口 url:http://service.picasso.adesk.com/v1/vertic...

  • Explicit Interaction Model towar

    文本分类的显式交互模型 摘要   文本分类是自然语言处理的基本任务之一。最近,与浅模型相比,深度神经网络在文本分类...

网友评论

      本文标题:文本分类V1

      本文链接:https://www.haomeiwen.com/subject/lscxjctx.html