用QQ聊天记录生成一个词云

作者: 高正杰 | 来源:发表于2018-01-25 20:41 被阅读173次

    问题与思路

    在了解了 Python 可以制作词云图后便想利用它来做点什么,于是便决定将自己和女朋友的聊天记录导出来做一个词云图看看。QQ的聊天记录可以通过消息管理器导出为 .txt 格式,具体的操作不再赘述。本文的分词工具采用的是 jieba 分词。

    系统环境说明

    本文的实验环境是 Python 3.6.1 |Anaconda 4.4.0 (64-bit),Win10

    依赖包

    jieba 、wordcloud 、PIL

    安装方式

    pip install jieba
    

    其它的包也是同样的安装方式,不再赘述。

    代码

    import jieba
    import matplotlib.pyplot as plt
    from wordcloud import WordCloud, ImageColorGenerator, random_color_func
    import os
    import numpy as np
    import PIL.Image as Image
    import re
    
    with open('聊天记录.txt', encoding="utf8") as fp:
        text = fp.read()
    
    text_cleansing = re.sub("((\d){4}-(\d){2}-(\d){2} \d\d:\d\d:\d\d)|\n|[表情]|[图片]|\[|\]", "", text).replace('mmmm*~~', '胡颖').replace('🐷🐷', '胡颖')
    jieba.add_word('高正杰')  # 将名字加入词典
    jieba.add_word('胡颖')  # 同上
    wordlist_jieba = jieba.cut(text_cleansing, cut_all=True)  # 分词
    wl_space_split = " ".join(wordlist_jieba)
    alice_coloring = np.array(Image.open("wechat2.jpg"))
    my_wordcloud = WordCloud(background_color="white", max_words=5000, mask=alice_coloring, max_font_size=60,
                             font_path='C:\Windows\Fonts\msyhl.ttc').generate(wl_space_split)
    image_colors = ImageColorGenerator(alice_coloring)
    plt.imshow(my_wordcloud.recolor(color_func=image_colors))
    # plt.imshow(my_wordcloud.recolor(color_func=random_color_func))
    plt.imshow(my_wordcloud, interpolation="bilinear")
    plt.axis("off")
    plt.show()
    

    效果图

    背景图1 效果图1 背景图2 效果图2

    总结

    虽然做出了效果,但是总感觉没有别人做的云图好看,关于背景图的选择,前景的字体颜色如何设置,均还有较大的空间值得学习。另外通过云图可以明显看出我平常和女朋友的聊天过程中说 哈哈 的次数真多,不得不说这真是一件幸福的事情!

    参考文献

    [1] http://www.yeayee.com/article-6655592-1.html 这篇文章对 WordCloud 的每个参数讲解比较细致,推荐仔细阅读。
    [2] https://www.jianshu.com/p/e4b24a734ccc 王树义老师的文章,一如既往地详细。

    相关文章

      网友评论

      本文标题:用QQ聊天记录生成一个词云

      本文链接:https://www.haomeiwen.com/subject/nvrbaxtx.html