看看你的群里都在说什么

作者: 右哼哼丨左哼哼 | 来源:发表于2018-06-20 15:36 被阅读180次

看看你的群里都在说什么
为孩子保存体力
今天你的朋友圈立了扫帚了吗？
心赏59
坚持的力量
日常
给参加夏令营的女儿一份信
同学群里看照片
女人真的动了情会有这些表现，是装不出来的！
好看的爱情电影里，都在说什么爱

嗯,最近学习词云,就研究了一下jieba,collections,wordcloud模块
先看看成品图吧

Python.jpg

数据收集

从QQ群导出聊天记录(如何导出请自行百度):

预处理信息.png

数据处理

我们并不需要一些干扰信息(如时间,昵称,QQ号等)

信息预处理.png

通过正则处理掉无用的信息

list1=[]
with open("./词云练习/Python.txt","r") as f:
    for i in f.readlines():
        j=re.findall("\d{4}-\d{2}-\d{2}",i)
        # print(j)
        if not j:
            print(i)
            list1.append(i)

处理完成的文本信息

image.png

然后可以开始我们的数据词云化了
词云化所需要的库

from scipy.misc import imread
from collections import Counter
from wordcloud import WordCloud, ImageColorGenerator
import jieba
import re

关于各个库的介绍,起什么作用,不在此赘述了,希望了解的朋友还请自行百度,毕竟这也是学习的过程(其实是懒得打字(＾－＾)V)

开始分词吧

image.png

这里的exclude_words 是属于停止词,就是分词以后,我们进行数据分析时,
所不需要的词汇,所以要用迭代器for....in.... 把分好的词中,含有停止词的词汇排除

开始画图吧

你需要一个简体中文字体库,因为你做的是中文分词,
字体库可以电脑里面找,也可以网上下载个性字体,
把他放在你当前的项目目录就好了
(就是放在你这会儿编辑的py文件的右边,左边也行!(ﾟ▽ﾟ)/)

image.png
这里解释一下参照图

man.png
有了参照图以后你生成的词云也是这个人的样子
否则就是方方正正的图片,如下:

123.jpg
嗯, 这一期词云可视化就到这里了,蛮简单的 ,吃透一次 ,就可以完全理解了

Python.jpg
大家如若有兴趣，欢迎朋友，可以加交流群：692-858-412一起学习
喜欢我的文章可以关注我哦,别忘了点个喜欢!

网友评论

右哼哼丨左哼哼:被删除的评论已截图,大家可以查看着素质低下的人说的些什么
应该是他心虚自己把评论删除了但是内容我之前已经截图保留了
https://pan.baidu.com/s/18run4LJL-JSp8AzCMNsR4Q
熏衣草的清香:好专业呀，我的电脑不好，不像你们年轻人😀👍🍉🍉🍉🌺🌺🌺
熏衣草的清香:@右哼哼丨左哼哼谢谢友!🙏🌺🌺🌺☕
右哼哼丨左哼哼:靠这个吃饭,必须专业,不过您也很厉害时间方便的时候,会拜读您的文章,谢谢
年伢:专业的东西，不太懂，学习了！
年伢:@年伢学习了，好好写，我们一起加油!
右哼哼丨左哼哼:饭碗的依靠,必须专业谢谢!
52_St:👏

本文标题：看看你的群里都在说什么

本文链接：https://www.haomeiwen.com/subject/aetdjftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

看看你的群里都在说什么

数据收集

数据处理

开始分词吧

开始画图吧

相关文章