文本分类V1

作者: neo_ng | 来源:发表于2019-08-08 13:31 被阅读0次

文本分类V1
文本分类；数据增强；模型微调 2020-02-25
Python篇—文本分类
WWDC2018之Create ML(二)
文本分类
2018-11-10
卷积神经网络CNN的文本分类原理和实战
基于Text-CNN模型的中文文本分类实战
手机壁纸API
Explicit Interaction Model towar

outline

什么是文本分类
特征工程+分类器
TextCNN

什么是文本分类

文本分类是自然语言处理的一个基本任务，试图推断出给定的文本（句子、文档等）的标签或标签集合,其应用非常广泛，比如：垃圾过滤，新闻分类，词性标注等等。

评价指标

文本分类的性能评价指标主要是召回率（recall）、准确率（precision）、F1-measure，以及用于评价全局性能的宏平均（macro-average）和微平均（micro-average）。

二分类：accuracy，precision，recall，f1-score，...
多分类: Micro-Averaged-F1， Macro-Averaged-F1, ...
多标签分类：Jaccard相似系数, ...

特征工程+分类器

传统的机器学习方法主要利用自然语言处理中的n-gram概念对文本进行特征提取，并且使用TFIDF对n-gram特征权重进行调整，然后将提取到的文本特征输入到Logistics回归、SVM等分类器中进行训练。这也是一个通用的分类任务解决框架。

中文文本分类一个实现

文本预处理

中文文本分类中，分词是必不可少的环节

文本特征提取/文本表示

向量空间模型(VSM)
语义的文本表示方法
比如LDA主题模型、LSI/PLSI概率潜在语义索引等方法，一般认为这些方法得到的文本表示可以认为文档的深层表示，
word embedding文本分布式表示方法
词向量

特征选择

文本分类中最常用的选择特征的方法就是：对每个词根据TF/IDF，互信息量，信息增益，χ2统计量之一计算一个值，并且从大到小排序，然后设定一个阈值，取出所有大于阈值的词作为特征值组成特征向量。

TF/IDF
互信息量
信息增益
χ2统计量

其它特征选择方法可参考机器学习-特征工程

fastText

fastText的核心思想：将整篇文档的词及n-gram向量叠加平均得到文档向量，然后使用文档向量做softmax多分类
fastText 方法包含三部分：模型架构、层次 Softmax 和 N-gram 特征。
Facebook开源的fastText工具也实现了词向量的训练，使用其可挖掘同近义词

模型架构:fastText 模型输入一个词的序列（一段文本或者一句话)，输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量，特征向量通过线性变换映射到中间层，中间层再映射到标签。fastText 在预测标签时使用了非线性激活函数，但在中间层不使用非线性激活函数。

层次softmax:在某些文本分类任务中类别很多，计算线性分类器的复杂度高。为了改善运行时间，fastText 模型使用了层次 Softmax 技巧。层次 Softmax 技巧建立在哈夫曼编码的基础上，对标签进行编码，能够极大地缩小模型预测目标的数量。

N-gram 特征：fastText 可以用于文本分类和句子分类。不管是文本分类还是句子分类，我们常用的特征是词袋模型。但词袋模型不能考虑词之间的顺序，因此 fastText 还加入了 N-gram 特征。

模型架构

fastText 模型架构和 Word2Vec 中的 CBOW 模型很类似。不同之处在于，fastText 预测标签，而 CBOW 模型预测中间词。

层次SoftMax

N-gram特征

在文本特征提取中，常常能看到n-gram的身影。它是一种基于语言模型的算法，基本思想是将文本内容按照字节顺序进行大小为N的滑动窗口操作，最终形成长度为N的字节片段序列。
FastText：快速的文本分类器

fastText原理及实践（达观数据王江）

TextCNN

下图为TextCNN的流程图

Screen-Shot-2015-11-06-at-8.03.47-AM-1024x413.png

下图为CNN的网络结构

Screen-Shot-2015-12-10-at-10.13.50-AM1-1024x525.png

具体细节参考Implementing a CNN for Text Classification in TensorFlow
在TextCNN中，第一层的作用是将词嵌入低维度向量，第二层使用多尺度卷积核进行卷积，然后使用max-pooling后将最后一层reshape为一个长向量，增加dropout正则，然后使用softmax进行分类
在这个实现中，作者将每个文本都pad到最大max_document_length,然后用词向量排列成一个矩阵