R语言数据挖掘-文本分析(2)

作者: 语落心生 | 来源:发表于2017-06-23 22:11 被阅读112次

R语言数据挖掘-文本分析(1)
R语言数据挖掘-文本分析(2)
R语言包(Rwordseg/jiebaR/rCharts/rec
生信入门学习笔记day4@2021.06.28
0.R语言学习前期准备
R语言生存分析01
学习小组day3笔记——肖舒
学习小组Day4笔记--呛
学习小组Day4--呛
109-文本分析之文本预处理

二、情感分析

对于某个商品的评价,虽然词频统计可以直观的反映出用户评论中用户对商品的意见，但仅仅只限于模糊查询,也就是只能看到用户评价的比例分布

随着电商平台对品牌评论的重视,用户的评论也至关重要,我们可以查询相关的情感字典,达到探索销售热点和行业的流行趋势,为市场研究的内容做出贡献的目的

我们引用第一章的国美电器数据进行说明

挖掘目标:对用户评论中的分词建立情感语科库,然后对关键词分词，生成人工标注的标签向量

1，清洗数据和分词，主要的R包有stringr包，Rwordseg包

2，简单情感分析和结论，主要的R包有plyr

注:情感词典引用自:http://www.keenage.com/html/c_index.html

一级清洗

这一步骤主要去除一些标点符号，比如逗号，句号，波浪线等。这里使用gsub()函数，其中涉及的正则表达式请自行查阅资料。

df=guomei

#一级清洗

df=gsub("\\s+","",df$Comment)#去空格

df=gsub("～|'","",df)#去波浪线和单引号

df=gsub(",","，",df)#转换英文逗号为中文逗号

df=gsub("\\^+","",df)#去^

df=gsub("_+","",df)#去_

df.=gsub("\\.+","",df)#去.

df=gsub("\\?[\\?]+","",df)#去表情

df=gsub("“|”","",df)#去双引号

df=gsub("。{2,}","。",df)#多个句号变一个

df=gsub("…+","，",df)#…变逗号

2.二级清洗

二级清洗主要去除无用内容，比如字母，数字等

df=gsub("\\d+","",df)#去数字

df=gsub("[a-zA-Z]","",df)#去字母

3.情感分词处理

在我们不确定评论中用户信息的情感导向时，可以使用分词表对应情感字典.情感字典分为政府标签，从知网上获取的情感字典如下图

情感字典种类.png

dirt=chinesedataset$df #建立情感语科库

insertWords(dirt,save = T)#插入情感分词

head(chinesedataset)#显示数据集

setseg=segmentCN(df) #分词

segseg[[1]]#显示分词

情感分词表.png

生成文档-词组矩阵。先用lapply()函数算出每条评论分词的个数，然后生成每个词对应的ID。

#每条评论分词的个数

temp=unlist(lapply(setseg,length))

#生成单词-文档-情感标签数据框

id=rep(1:length(df),temp)

seg_word_list=unlist(setseg)

df.emotion=data.frame(

Id=id,

评论=seg_word_list,

stringsAsFactors = F

)
head(df.emotion)

在命令行输入如下:

>seg_word_list=unlist(setseg)
>df.emotion=data.frame(
+Id=id,
+评论=seg_word_list,
+stringsAsFactors = F,
+)
>head(ef.emotion)

评论.png

从分词结果来看，出现了大量的关于海尔电热水器的评论，显考虑商品的性价比时，

用户在海尔电热水器的比较较多，属于负向情感评价，所以我们抽取负向评价的情感词典对源数据集进行分词

网友评论

本文标题：R语言数据挖掘-文本分析(2)

本文链接：https://www.haomeiwen.com/subject/uikhcxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

R语言数据挖掘-文本分析(2)

相关文章

R语言数据挖掘-文本分析(1)