美文网首页
R可视化之美之科研绘图-20.词云图

R可视化之美之科研绘图-20.词云图

作者: 科研私家菜 | 来源:发表于2022-08-07 10:48 被阅读0次

    本内容为【科研私家菜】R可视化之美之科研绘图系列课程

    快来收藏关注【科研私家菜】


    01 词云图

    词云图( word cloud chart)是通过使每个字的大小与其出现频率成正比,显示不同单词在给定文本中的出现频率,然后将所有的字词排在一起,形成云状图案,也可以任何格式排列:水平线、垂直列或其他形状,如图3-9-1所示。其也可用于显示获分配元数据的单词。在词云图上使用颜色通常都是毫无意义的,主要是为了美观,但我们可以用颜色对单词进行分类或显示另一个数据变量。词云图通常用于网站或博客上,以描述关键字或标签使用,也可用来比较两个不同的文本。

    
    library(tm)
    library(wordcloud)
    
    Paper1<-paste(scan("Paper1.txt", what = character(0),sep = ""), collapse = " ") #读入TXT 文档1
    Paper2<-paste(scan("Paper2.txt", what = character(0),sep = ""), collapse = " ") #读入TXT 文档2
    tmpText<- data.frame(c(Paper1, Paper2),row.names=c("Text1","Text2"))
    df_title <- data.frame(doc_id=row.names(tmpText),
                           text=tmpText$c.Paper1..Paper2.)
    ds <- DataframeSource(df_title)
    #创建一个数据框格式的数据源,首列是文档id(doc_id),第二列是文档内容
    corp <- VCorpus(ds)
    #加载文档集中的文本并生成语料库文件
    corp<- tm_map(corp,removePunctuation) #清除语料库内的标点符号
    corp <- tm_map(corp,PlainTextDocument) #转换为纯文本
    corp <- tm_map(corp,removeNumbers) #清除数字符号
    corp <- tm_map(corp, function(x){removeWords(x,stopwords())}) #过滤停止词库
    term.matrix <- TermDocumentMatrix(corp)
    #利用TermDocumentMatrix()函数将处理后的语料库进行断字处理,生成词频权重矩阵
    
    term.matrix <- as.matrix(term.matrix) #频率
    colnames(term.matrix) <- c("Paper1","paper2")
    df<-data.frame(term.matrix)
    write.csv(df,'term_matrix.csv') #导出两篇文章的频率分析结果
    
    df<-read.csv('term_matrix.csv',header=TRUE,row.names=1)
    #Colors<-colorRampPalette(rev(brewer.pal(9,'RdBu')))(length(df$Paper1>10))
    wordcloud(row.names(df) , df$Paper1 , min.freq=10,col=brewer.pal(8, "Dark2"), rot.per=0.3 )
    
    

    效果如下:


    02 两份数据的对比

    
    comparison.cloud(df, max.words=300, random.order=FALSE, rot.per=.15, c(4,0.4), title.size=1.4)
    
    comparison.cloud(df,max.words=300,random.order=FALSE,colors=c("#00B2FF", "red"))
    commonality.cloud(df,max.words=100,random.order=FALSE,color="#E7298A")
    
    # comparison cloud
    comparison.cloud(df, random.order=FALSE, 
                     colors = c("#00B2FF", "red", "#FF0099", "#6600CC"),
                     title.size=1.5, max.words=500)
    

    效果如下:

    注意事项:

    词云图虽然简单易懂,但有着一些缺点:
    (1)较长的字词会更引人注意;
    ( 2)字母含有很多升部/降部的单词可能会更受人关注;
    (3)分析精度不足,主要是为了美观。


    参考资料

    《R语言数据可视化之美》

    关注R小盐,关注科研私家菜(溦❤工众號: SciPrivate),有问题请联系R小盐。让我们一起来学习 R可视化之美之科研绘图

    相关文章

      网友评论

          本文标题:R可视化之美之科研绘图-20.词云图

          本文链接:https://www.haomeiwen.com/subject/apvpbrtx.html