学习目标
- 学会TF-IDF的原理和使用
- 使用sklearn的机器学习模型完成文本分类
文本表示方法
One-hot
将每一个单词使用一个离散的向量表示
Bag of Words
词袋表示, 也称为Count Vectors, 每个文档的字/词可以使用其出现次数来表示
N-gram
对比Bag of Words加入了相邻单词组成新的单词, n代表相邻几个单词组成新的单词
TF-IDF
TF 词语频率(Term Frequency) TF = 该词语在当前文档出现的次数 / 当前文章中词语的总数
IDF = log e(文档总数 / 出现该词语的文档总数)
用于评估一个字词对于一个文件集或一个语料库的其中一份文件的重要程度. 粗略的理解就是, 一个词只在一个文本集合中出现频率高未必重要, 还要看在整个文本库的出现频率.
网友评论