R语言 数据挖掘-文本分析(2)

作者: 语落心生 | 来源:发表于2017-06-23 22:11 被阅读112次

二、情感分析

对于某个商品的评价,虽然词频统计可以直观的反映出用户评论中用户对商品的意见,但仅仅只限于模糊查询,也就是只能看到用户评价的比例分布

随着电商平台对品牌评论的重视,用户的评论也至关重要,我们可以查询相关的情感字典,达到探索销售热点和行业的流行趋势,为市场研究的内容做出贡献的目的

我们引用第一章的国美电器数据进行说明

挖掘目标:对用户评论中的分词建立情感语科库,然后对关键词分词,生成人工标注的标签向量

1,清洗数据和分词,主要的R包有stringr包,Rwordseg包

2,简单情感分析和结论,主要的R包有plyr

注:情感词典引用自:http://www.keenage.com/html/c_index.html

一级清洗

这一步骤主要去除一些标点符号,比如逗号,句号,波浪线等。这里使用gsub()函数,其中涉及的正则表达式请自行查阅资料。

df=guomei

#一级清洗

df=gsub("\\s+","",df$Comment)#去空格

df=gsub("~|'","",df)#去波浪线和单引号

df=gsub(",",",",df)#转换英文逗号为中文逗号

df=gsub("\\^+","",df)#去^

df=gsub("_+","",df)#去_

df.=gsub("\\.+","",df)#去.

df=gsub("\\?[\\?]+","",df)#去表情

df=gsub("“|”","",df)#去双引号

df=gsub("。{2,}","。",df)#多个句号变一个

df=gsub("…+",",",df)#…变逗号

2.二级清洗

二级清洗主要去除无用内容,比如字母,数字等

df=gsub("\\d+","",df)#去数字

df=gsub("[a-zA-Z]","",df)#去字母

3.情感分词处理

在我们不确定评论中用户信息的情感导向时,可以使用分词表对应情感字典.情感字典分为政府标签,从知网上获取的情感字典如下图

情感字典种类.png
dirt=chinesedataset$df #建立情感语科库

insertWords(dirt,save = T)#插入情感分词

head(chinesedataset)#显示数据集

setseg=segmentCN(df) #分词

segseg[[1]]#显示分词
情感分词表.png

生成文档-词组矩阵。先用lapply()函数算出每条评论分词的个数,然后生成每个词对应的ID。

#每条评论分词的个数

temp=unlist(lapply(setseg,length))

#生成单词-文档-情感标签数据框

id=rep(1:length(df),temp)

seg_word_list=unlist(setseg)

df.emotion=data.frame(

Id=id,

评论=seg_word_list,

stringsAsFactors = F

)
head(df.emotion)

在命令行输入如下:

>seg_word_list=unlist(setseg)
>df.emotion=data.frame(
+Id=id,
+评论=seg_word_list,
+stringsAsFactors = F,
+)
>head(ef.emotion)
评论.png

从分词结果来看,出现了大量的关于海尔电热水器的评论,显考虑商品的性价比时,

用户在海尔电热水器的比较较多,属于负向情感评价,所以我们抽取负向评价的情感词典对源数据集进行分词

相关文章

  • R语言 数据挖掘-文本分析(1)

    刚接触R语言一周,和matab不同R作用于数据挖掘的库很多,详解见 R语言数据挖掘包,下面简介文本分析经常使用到的...

  • R语言 数据挖掘-文本分析(2)

    二、情感分析 对于某个商品的评价,虽然词频统计可以直观的反映出用户评论中用户对商品的意见,但仅仅只限于模糊查询,也...

  • R语言包(Rwordseg/jiebaR/rCharts/rec

    R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)R语言·文本挖掘︱Rwordseg/rJav...

  • 生信入门学习笔记day4@2021.06.28

    R语言基础 R 语言是一种主要用于统计分析、绘图、数据挖掘的数学编程语言。R language: The R Pr...

  • 0.R语言学习前期准备

    重点摘要:数据分析的原则,步骤; 常用数据分析的工具,数据挖掘的工具; R语言的优缺点; ...

  • R语言生存分析01

    R语言生存分析 生存分析是医学数据挖掘中的重要内容 R语言中用于生存分析的包主要有survival与survmin...

  • 学习小组day3笔记——肖舒

    认识R语言和Rstudio R语言是一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R语言软件界...

  • 学习小组Day4笔记--呛

    Day4学习笔记 R语言初体验 怎么理解R 百度百科:R语言常用在数据统计分析、数据绘图和数据挖掘,是一种编程语言...

  • 学习小组Day4--呛

    Day4学习笔记 R语言初体验 怎么理解R 百度百科:R语言常用在数据统计分析、数据绘图和数据挖掘,是一种编程语言...

  • 109-文本分析之文本预处理

    参考:《文本数据挖掘——基于R语言》 1、读取数据 随便文本代替即可,包括两列,一列为文档名或编号,一列为文本内容...

网友评论

    本文标题:R语言 数据挖掘-文本分析(2)

    本文链接:https://www.haomeiwen.com/subject/uikhcxtx.html