美文网首页
使用python结巴分词获得微信功能点词云图

使用python结巴分词获得微信功能点词云图

作者: 我有派大星 | 来源:发表于2018-09-03 11:42 被阅读0次

    一、原料和准备

    1.从网上爬虫的文档,保存为txt文档,本例来源https://www.zhihu.com/question/23178234?from=groupmessage&isappinstalled=0&utm_medium=social&utm_source=wechat_session

    2.停用词表(网上可搜索到。txt文档)

    3.结巴工具(参看网上下载安装方法,小白最好用pycharm编辑器)

    4.做词云的工具:

    第一种, TAGUL, https://tagul.com/ 一款在线词云制作工具,非常简单(但是多英文很友好,中文需要在window里找到字体)。

    第二种,Tagxedo:http://www.tagxedo.com/有几大优点:强大的导入功能(可导入网页、文字等)、自定义设置词云形状(这个真心好)等等,最重要的是它支持中文。

    二、过程

    importjieba.analyse

    path ='D:\python\\view.txt'#网络爬虫文档

    file_in = open(path,'rb')

    content = file_in.read()

    try:

    jieba.analyse.set_stop_words('D:\python\dict.txt')#停用词表地址

    tags = jieba.analyse.extract_tags(content, topK=100, withWeight=True)

    forv, nintags:

    #权重是小数,为了凑整,乘了一万

    print(v +'\t'+ str(int(n *10000)))

    finally:

        file_in.close()

    程序运行结果:

    C:\Users\Sakura\AppData\Local\Programs\Python\Python36-32\python.exe D:/python.(pycharm)edit/untitled/111111.py

    Building prefix dictfromthe default dictionary ...

    Loading modelfromcache C:\Users\Sakura\AppData\Local\Temp\jieba.cache

    Loading model cost1.328seconds.

    Prefix dict has been built succesfully.

    朋友圈2738

    微信1851

    功能1302

    好友821

    可以767

    屏蔽755

    删除658

    分组560

    消息548

    聊天记录531

    语音523

    聊天472

    希望440

    QQ394

    订阅379

    评论335

    添加319

    对方315

    已读314

    信息314

    公众299

    一个292

    群聊290

    一键271

    发送257

    增加257

    表情255

    回复254

    图片253

    时候236

    转发230

    内容230

    提醒225

    自动217

    文章215

    设置209

    朋友208

    头像206

    或者189

    看到188

    手机187

    分享182

    自己174

    模式168

    点赞166

    不想163

    不能160

    文字160

    夜间160

    对话框158

    提示157

    代购148

    有个148

    查看144

    用户144

    别人144

    搜索142

    匿名142

    照片142

    ...141

    置底141

    不是140

    界面139

    账号139

    可见135

    群里135

    对话134

    视频133

    自定义132

    推送132

    这个128

    标签128

    批量127

    一样125

    需要125

    通讯录125

    qq123

    未读123

    每次123

    现在122

    真的122

    保存119

    打开118

    这样118

    选择116

    比如114

    不要113

    显示111

    class111

    知乎 111

    记录 110

    阅读 109

    应该 108

    浏览 108

    知道 104

    方便 104

    按钮 103

    所有 101

    红包 99

    小视频 98

    Processfinishedwithexitcode0

    三、词云制作

    本次选择使用的Tagxedo:http://www.tagxedo.com/ 

    需要注意的是:粘贴文本时,关键词之间需要使用制表符或者回车键分开。选了一个普通的圆形。

    这次微信的功能点分析的词云图

    相关文章

      网友评论

          本文标题:使用python结巴分词获得微信功能点词云图

          本文链接:https://www.haomeiwen.com/subject/lbebwftx.html