文本数据的基本体征提取
词汇数量 (理由:负面情绪评论含有词语数量比正面情绪评论多)
字符数量 (理由:负面情绪评论含有词语数量比正面情绪评论多)
平均字长(所有单词的长度然后除以每条推文单词的个数,即可作为平均词汇长度)
停用词数量
特殊字符数量(提取“#”和“@”符号的数量。这也有利于我们从文本数据中提取更多信息)
数字数量(数字数量是一个比较有用的特征)
大写字母数量
文本数据的基本预处理
小写转换
去除标点符号
去除停用词
去除频现词
去除稀疏词
拼写校正
分词(tokenization)
词干提取(stemming)
词形还原(lemmatization)
高级文本处理
N-grams语言模型
词频
逆文档频率
TF-IDF
词袋
情感分析
词嵌入
网友评论