美文网首页Python专题人生
看看你的群里都在说什么

看看你的群里都在说什么

作者: 右哼哼丨左哼哼 | 来源:发表于2018-06-20 15:36 被阅读180次

    嗯,最近学习词云,就研究了一下jieba,collections,wordcloud模块
    先看看成品图吧


    Python.jpg

    数据收集

    从QQ群导出聊天记录(如何导出请自行百度):


    预处理信息.png

    数据处理

    我们并不需要一些干扰信息(如时间,昵称,QQ号等)


    信息预处理.png

    通过正则处理掉无用的信息

    list1=[]
    with open("./词云练习/Python.txt","r") as f:
        for i in f.readlines():
            j=re.findall("\d{4}-\d{2}-\d{2}",i)
            # print(j)
            if not j:
                print(i)
                list1.append(i)
    

    处理完成的文本信息


    image.png

    然后可以开始我们的数据词云化了
    词云化所需要的库

    from scipy.misc import imread
    from collections import Counter
    from wordcloud import WordCloud, ImageColorGenerator
    import jieba
    import re
    

    关于各个库的介绍,起什么作用,不在此赘述了,希望了解的朋友还请自行百度,毕竟这也是学习的过程(其实是懒得打字(^-^)V)

    开始分词吧

    image.png

    这里的exclude_words 是属于停止词,就是分词以后,我们进行数据分析时,
    所不需要的词汇,所以要用迭代器for....in.... 把分好的词中,含有停止词的词汇排除

    开始画图吧

    你需要一个简体中文字体库,因为你做的是中文分词,
    字体库可以电脑里面找,也可以网上下载个性字体,
    把他放在你当前的项目目录就好了
    (就是放在你这会儿编辑的py文件的右边,左边也行!(゚▽゚)/)

    image.png
    这里解释一下参照图
    man.png
    有了参照图以后 你生成的词云也是这个人的样子
    否则就是方方正正的图片,如下:
    123.jpg
    嗯, 这一期词云可视化就到这里了,蛮简单的 ,吃透一次 ,就可以完全理解了
    Python.jpg
    大家如若有兴趣,欢迎朋友,可以加交流群:692-858-412一起学习
    喜欢我的文章可以关注我哦,别忘了点个喜欢!

    相关文章

      网友评论

      本文标题:看看你的群里都在说什么

      本文链接:https://www.haomeiwen.com/subject/aetdjftx.html