R语言 数据挖掘-文本分析(1)

作者: 语落心生 | 来源:发表于2017-06-23 21:49 被阅读155次

刚接触R语言一周,和matab不同R作用于数据挖掘的库很多,详解见 R语言数据挖掘包
,下面简介文本分析经常使用到的三个包
tm 为文本挖掘提供综合性处理 Rwordmsg 进行中文分词 wordcloud 统计词云
以第三届泰迪杯A题提供的数据集国美-Sheet1进行文本分析 : 第三届泰迪杯
转化为txt的数据集如下图所示:

dataset.png
filepath = "D:/Rstudio/test.txt";
#设置导入文件路径

text = readLines(filePath);

txt = text[text!=""];#判断文本不为空

txt = tolower(txt);#统一大小写

txtList = lapply(txt, strsplit," ");#对每一个字符串加上""

txtChar = unlist(txtList);#/统一数据格式为数字向量

txtChar = gsub("\\.|,|\\!|:|;|\\?","",txtChar) #clean symbol(.,!:;?);#这里解释一下,当我们从.xls .xlsx转为.csv .txt格式时,会将每行之间的字段值用逗号隔开,此时我们根据不同情况替换逗号 例如

#“张三”,"李四",

#"13","34",

#行间用两个//隔开,列间用一个/隔开

#gsub的作用就是作为正则表达式统计匹配这几类替换情况的出现次数,以此达到统计词频的效果

#txtChar = txtChar[txtChar!=""];//检查字符串是否全部成功匹配

#到此为止,清洗完成

data = as.data.frame(table(txtChar));#数据集可以看成多个向量组成的向量组,对于向量组而言,数据框中的向量必须有相同的长度.data.frame可以补全空缺的值

colnames(data) = c("Word","freq");#拟定行名和列名,初始化数据集引用

ordFreq = data[order(data$freq,decreasing=T),]#根据官方的说明,应该是构建分词模板

View(ordFreq);#显示词频表
wordlist.png
library(wordcloud);#引入词云包
#命令行输入
>wordcloud(words=ordFreq$word,freq=ordFreq$freq,scale=c(3,5),col=rainbow(length(ordFreq$freq)))

生成词云:


cloud.png

相关文章

  • R语言 数据挖掘-文本分析(1)

    刚接触R语言一周,和matab不同R作用于数据挖掘的库很多,详解见 R语言数据挖掘包,下面简介文本分析经常使用到的...

  • R语言包(Rwordseg/jiebaR/rCharts/rec

    R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)R语言·文本挖掘︱Rwordseg/rJav...

  • R语言 数据挖掘-文本分析(2)

    二、情感分析 对于某个商品的评价,虽然词频统计可以直观的反映出用户评论中用户对商品的意见,但仅仅只限于模糊查询,也...

  • 109-文本分析之文本预处理

    参考:《文本数据挖掘——基于R语言》 1、读取数据 随便文本代替即可,包括两列,一列为文档名或编号,一列为文本内容...

  • 生信入门学习笔记day4@2021.06.28

    R语言基础 R 语言是一种主要用于统计分析、绘图、数据挖掘的数学编程语言。R language: The R Pr...

  • R语言入门与基础绘图系统 1

    1. 什么是R语言? R语言是一种自由软件编程语言与操作环境,主要用于统计分析、绘图和数据挖掘。 R语言是从S语言...

  • 0.R语言学习前期准备

    重点摘要:数据分析的原则,步骤; 常用数据分析的工具,数据挖掘的工具; R语言的优缺点; ...

  • R语言生存分析01

    R语言生存分析 生存分析是医学数据挖掘中的重要内容 R语言中用于生存分析的包主要有survival与survmin...

  • R ---专职数据分析

    1.R语言的介绍 R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘 R 语言特点...

  • 学习小组day3笔记——肖舒

    认识R语言和Rstudio R语言是一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R语言软件界...

网友评论

    本文标题:R语言 数据挖掘-文本分析(1)

    本文链接:https://www.haomeiwen.com/subject/mckhcxtx.html