美文网首页
QQ文本分析—R语言

QQ文本分析—R语言

作者: 巴拉巴拉_9515 | 来源:发表于2017-04-11 17:03 被阅读0次

    1、参考文献

    设置超链接:时间分布和成员分析 ;QQ聊天内容 ;recharts安装包官方介绍 

    2、读入QQ聊天记录

    文本内容

    QQ文本读入的形式从左到右分别为“时间”,“用户”,“聊天信息”

    时间信息涉及年份,日期以及具体时间。可以根据时间信息分析群的活跃分布情况

    特殊的第十行

    可以发现第十行的时间,用户都为空格

    文件上传分两行表示。第九行出现“[图片]郭樱分享文件”;第十行只出现文件名称

    表1

    3、时间分析

    3.1、一星期分布

    QQ 群的聊天兴致星期分布:周二,周六聊天最多;一般周一,周日很少聊天

    想知道周二总共有过多少次发言吗?

    把鼠标点在周二的“柱形”上就可以知道了

    图2

    3.2、24小时分布

    聊天兴致在一天中的分布

    交流高峰期一般在上班时间:上午9点到11点~下午14点到17点;夜间讲话不多

    图3

    3.3、每天的发言次数分布

    如何知道“折线图”中,高峰期是哪一天呢?

    把鼠标点在高峰期就可以知道了

    点击右上角柱形图标,即可展示为柱形图

    图4

    每天的发言次数按从大到小排列,可以知道2016年11月24日是个重大的日子

    其实是一个很普通的周四(不过节,不放假)

    小技巧

    想要在页面里展现更多行吗?

    在show 10 entries里选择想要的页数吧

    图5

    4、聊天内容分析

    4.1、初次分词结果

    根据搜狗词库日常聊天用语词库对数据进行分词。

    从分词结果可以发现“的”,“了”,“好”,“就”,“吗”等连接词,语气词高频度出现,所以需要对一些无用信息进行删除

    图6

    5.2、字符长度大于1的词汇

    排列前三的为图片、表情、你们

    “李主任”出现44次(search中输入李主任即可查询);“月报”出现43次。一看就是个正规的群

    图7

    5.3、删除初次分词中无意义信息

    删除一些无意信息后,“图片”,“表情”仍为主要词汇

    看来“吃”是群里的主要话题

    图8

    5.4、展示清除后,排名前1500的词

    同时删除“图片”,“表情”两词

    图9

    相关文章

      网友评论

          本文标题:QQ文本分析—R语言

          本文链接:https://www.haomeiwen.com/subject/jjruattx.html