写给初学者的文本向量化指南

作者: 酱油戊 | 来源:发表于2017-11-01 19:16 被阅读0次

写给初学者的文本向量化指南
文本向量化初学者指南
文本向量化初学者指南
python文本相似度计算
写给青少年的网页爬虫学习指南
量化炒币 BCB ALPHA 交易系统限时免费！
文本挖掘HW5---文本向量化及词频统计
文本向量化
Python 自学者的入门指南
BITCOINBASE ALPHA 交易系统新手指南

姓名：何承勇

学号：16050510005

原文链接：https://monkeylearn.com/blog/beginners-guide-text-vectorization/

转载自：http://www.jianshu.com/p/f5c7144810c6，有删改

【嵌牛导读】：深度学习的火热已经深度的影响着文本向量化的发展，各种技术概念的提出与实践应用，也使得文本向量化由原始阶段走向了自主学习阶段。

【嵌牛鼻子】：深度学习

【嵌牛提问】：哪些技术概念为文本向量化的发展提供了技术支持？以及文本向量化又会朝着一个怎样的结果发展？

【嵌牛正文】：

在自然语言处理（NLP）诞生之初，需要将文本转换成机器可以理解的东西。换句话说，就是将文本转换为有意义的数字向量（或数组）。但是在深度学习的时代，我们只需用一个词袋就可以达到上述操作的效果。

1、词袋

这种方法虽然功能强大但是其背后的理念很简单。首先，我们需要定义一个固定长度向量，其中每个条目和我们预定义的词典中的单词相对应。向量的大小等于字典的大小。然后，我们只需计算出字典里的每一个单词在文本中出现的次数，再将这个数字放在相应的向量项中，这样所得到的向量就表示一个文本。

例如，如果我们的字典包含单词{MonkeyLearn，is，the，not，great}，我们想要向量化文本“MonkeyLearn is great”，我们将会有以下向量：（1，1，0，0， 1）。

为增强它的表现能力，你可以使用一些更先进的技术，如去除省略词，lemmatizingword，使用n-gram或使用TF-IDF，来代替计数。

但是这种方法即使使用n-gram，它也不会真正捕捉到文本的含义或单词出现的语境。

2、深度学习正在改变文本向量化

目前，深度学习已经接管了机器学习，它做了很多改变文本向量化方式的尝试，并找到更好的方式来表示文本。

为解决上述问题首先需要找到一种向量化单词（vectorize words）的方式，word2vec的实现为解决这个问题起到了很大的作用，也因此在2013年之后变得非常受欢迎。通过使用大量数据，可以让神经网络学习一些具有理想属性词的向量表示。例如，使用word2vec，您可以执行“king” - “man”+“woman”，结果会得到一个与向量“Queen”非常相似的向量。这看起来有点魔幻，但是通过这个博客，你将会发现这是有可能发生的。这些向量的每一个维度可以编码出该单词的不同属性，这对于执行和NLP相关的许多任务是有用的。例如，据此你可以描述出该单词是动词还是名词，或者该单词是否为复数形式。

下一步是获取整个句子的向量化，这对于文本分类非常有用。尽管如此这个问题还是没有完全解决，但是在过去几年里，像Skip-Thought Vectors类似技术的实现，在该方面还是取得了很大的进展。

3、转移学习

在机器学习领域，转移学习是指机器将在一个任务中得到的学习观念运用到另一个任务中的能力。对于你面临的每个新问题，你需要从头开始执行所有向量化，这是通过词袋方法进行文本向量化的过程中存在一个问题。

这个问题在人与人的交往中并不存在，我们知道某些词的含义可能随着不同的背景而改变，但是我们不需要每次遇到这个词都重复学习一遍。

而深度学习则具有能够在多个不同问题中使用的文本向量化的能力，不必一次又一次地重复学习。

4、Skip-Thought向量

在这个方向上有很多人研究，其中多伦多大学开发的Skip-Thoughts向量是最好的研究成果之一。在这里你可以了解到Theano这种算法是如何实现的。

这个算法的想法如下：我们可以通过使用一个试图预测一个单词的周围单词的神经网络来获得一个向量表示，然后以同样的方式用一个神经网络预测句子周围的句子。为了得到更好地效果，他们需要在BookCorpus数据集中（这是一些作者编写的尚未发表的免费书）找到大量连续的文本数据。

在他们的论文中，他们表明这些句子向量可以用作非常强大的文本表示。我们将在文本分类问题中尝试这一点，看看它是否值得在现实世界中使用它。

5、一个小例子

接下来我们打算使用本文中给出的Scikit-Learn和skip-thoughts算法（使用Theano）将Skip-Thoughts和Bag of Words进行比较。我们使用航空情报数据集作为实验对象、用精度作为评估分类结果的指标。首先我们需要加载数据，并我们将数据集分为两个，然后进行训练和测试：