一句话概括本文:
爬取2018政府工作报告,通过jieba
库进行分词后做词频统计,
最后使用 wordcloud
库制作naive词云,非常有意思~
引言:
昨晚写完上一篇把爬取到的数据写入到Excel后,在回家的路上我就盘算着
折腾点有趣的东西玩玩——简单的数据分析:分词,统计词频,然后做成词云;
分析点什么玩玩好呢?想起以前看到过一个梗,有人把汪峰唱过的歌的歌词做
词频统计,然后自嗨作词了一首汪峰Style的歌,2333,本来早上想弄的,
发现处理起来有些麻烦,歌词源考虑了下爬虾米音乐,但是有些歌词不规范,
这个多点什么,那个少点什么,处理起来挺麻烦的,就放弃了,后面在
看文章的时候发现了一个有点意思的例子:
Python文本分析:2016年政府工作报告有哪些高频词?
3月5日不是刚召开完第十三届全国人民代表大会吗?会后发布了:
2018政府工作报告,作为一个积极爱国分子,写个Python脚本来分析
分析高频词,弄个词云学习学习,岂不美哉~开始本节内容!
验证通过后回复 加群 即可获得加群链接(不要把机器人玩坏了!!!)~~~
欢迎各种像我一样的Py初学者,Py大神加入,一起愉快地交流学♂习,van♂转py。
网友评论