两点前置知识
- 词袋法(词袋模型,bag of words):忽略文本中的词序、语法等信息,将文本视作词的集合,每一个词均为独立的,不依赖于其他词是否出现。这种情况下,一般是计算词出现的频率。
- 马尔科夫模型:如果单单照词袋法不去关心词与词的关系,则有很大问题,所以词与词的关系也开始考虑进去,但一句话中词太多,如果考虑所有词一同出现的概率,会太过复杂,于是马尔科夫模型就假定,每一个词只与前若干个词有关。这也称做N-gram模型。当假定与前一个词相关时,为Bi-gram(n=2),假定与前两个词相关时,为Tri-gram(n=3)。
-
N是否越大越好?
- 《Language Modeling with Ngrams》使用了 Perplexity 这一指标,该指标越小表示一个语言模型的效果越好。直观上讲,n越大,依赖的词越多,信息量就越多,预测也就越准确,但是如果n太大,则会导致有些n-gram没有出现过,这是稀疏(Sparsity)问题。也就是说,当一个句子中分词的每个组合出现的几率在语料库中都为0的话,意味着整个句子的出现概率为0,而n越大,出现0概率的句子的数目就越多,最后导致大部分的句子的概率都为0,这个不合常理。所以一般n取2-3较为合理和可信。
-
N是否越大越好?
Python包的实现
在sklearn.feature_extraction.text中存在CountVectorizer的类,实现了tokenization (词语切分)和 occurrence counting (出现频数统计),并且可以使用n-gram。
class sklearn.feature_extraction.text.CountVectorizer(
input=u'content',
encoding=u'utf-8',
decode_error=u'strict',
strip_accents=None,
lowercase=True,
preprocessor=None,
tokenizer=None,
stop_words=None,
token_pattern=u'(?u)\b\w\w+\b',
ngram_range=(1, 1),
analyzer=u'word',
max_df=1.0,
min_df=1,
max_features=None,
vocabulary=None,
binary=False,
dtype=<type 'numpy.int64'>)
参数解释
- input : 输入的类型,是'file'(输入的对象为一个可迭代对象,里面的元素是带有read方法的类文件对象), 'filename'(输入的对象为一个可迭代对象,里面的元素是需要I/O读取的文件名)还是'content'(默认值)
- decode_error : {‘strict’, ‘ignore’, ‘replace’} 'strict' meaning that a UnicodeDecodeError will be raised.
- tokenizer : callable or None (default) Override the string tokenization step while preserving the preprocessing and n-grams generation steps. Only applies if analyzer == 'word'.
- ngram_range : tuple (min_n, max_n) 分词数量,即n-gram中的n取值范围
- max_df : float in range [0.0, 1.0] or int, default=1.0 创建分词词库时,如果词频大于此值,则不会计入词库中。(比如有一些语料库特有的停用词) 如果是float,这个参数代表比例,如果是integer,这个参数代表绝对值数量。
- min_df : float in range [0.0, 1.0] or int, default=1.0 这个值也被称作 cut-off 。 创建分词词库时,如果词频小于此值,则不会计入词库中。如果是float,这个参数代表比例,如果是integer,这个参数代表绝对值数量。
假设一个实例化之后的CountVectorizer,名为vectorizer。
vectorizer实例方法
- vectorizer.fit_transform(raw_documents)学习训练集,分析出符合条件的分词及其频率,返回一个稀疏矩阵(指定某一个位置比如【(1,2)\t1】,代表第2行里面的第3个特征,此特征出现的频数为1),每一行中每个数字代表对应feature的出现频数。这个稀疏矩阵即为当前分词库。
- vectorizer.fit(raw_documents)学习训练集,分析出符合条件的分词及其频率,但不会返回fit_transform得到的那个稀疏矩阵。分词库仍然保存下来了。
- vectorizer.get_feature_names() 学习训练集之后,可以获得对应列代表的feature name。数据格式为列表。
- vectorizer.transform(test_documents) 将test_documents按照已经训练的分词库进行转化,变成一个表现分词出现频率的稀疏矩阵。
网友评论