中文分词
中文分词包jieba,用jieba对原始文本做分词。
文本预处理
1. 去掉无用的字符
2. 去掉停用词
3. 去掉低频词
文本特征提取
1. 把文本分为训练集和测试集
2. 把文本转换为向量的形式:tf-idf向量、word2vec(CBoW,SkipGram)、bert
模型搭建与模型训练、评估
1. 搭建模型
2. 训练模型(并做交叉验证):找最好参数-训练模型-在测试集上的准确率&F1-score
3. 输出最好的结果
中文分词包jieba,用jieba对原始文本做分词。
1. 去掉无用的字符
2. 去掉停用词
3. 去掉低频词
1. 把文本分为训练集和测试集
2. 把文本转换为向量的形式:tf-idf向量、word2vec(CBoW,SkipGram)、bert
1. 搭建模型
2. 训练模型(并做交叉验证):找最好参数-训练模型-在测试集上的准确率&F1-score
3. 输出最好的结果
本文标题:豆瓣评分预测
本文链接:https://www.haomeiwen.com/subject/iezjgrtx.html
网友评论