上一篇文章说了要抽时间采集更大范围内的数据,今天,我带着数据走来了。
首页数据共 140 条,简友广场专题共 590 条。
全部数据已经完成清洗,可以直接开始分析,可下载 .xlsx 和 .csv 两种格式。
首页数据包括:
- 文章标题
- 获得简书钻数量
- 评论数量
- 点赞数量
- 发布日期
- 发布时间
- 总字数
- 阅读量
专题数据包括:
- 文章标题
- 评论数量
- 点赞数量
- 发布日期
- 发布时间
- 总字数
- 阅读量
这波数据爬了两个小时,期间出现了一些错误,但数据整体没有受到影响。由于使用采集软件的未知原因(Python 可以做,但我比较懒),有些数据错位了,被我手动删掉。
简书专题的反爬做的一般般,但首页反爬还是不错的,未登录用户只能浏览七页内容,我费尽千辛万苦搞到了一个刚刚注册的账号,给大家爬取数据。
首页信息流采用的是瀑布流加分页的形式,还需要手动处理,这一点着实卡了我不少时间。
看到这里,一些不懂技术的简友们要问了,你采集这个有用吗?
给大家来点有视觉冲击力的,词云图安排。
为了避开各种在线词云工具的限制,我装了 Python 用代码实现了词云生成:


大家可以点击这个链接并跳转到浏览器下载数据进行分析,鉴于作者时间有限,在此不给大家做像上一篇文章那样的分析了,如果大家会简单的 Excel 图表,可以自己完成数据分析。
当然,也欢迎大神用代码实现可视化之类,如果有大神完成了分析,可以发到评论区让大家观赏。
后面是技术问题的请教,不懂技术的可以关掉文章界面了。
本来想搞定一个和简书 Logo 类似图形的词云图,但无论怎么调整代码都无法做到预期的效果,图片是透明的,代码运行时没有出现报错。以下是代码:
import wordcloud
import jieba
import numpy as np
import PIL.Image as image
with open("raw.txt","r",encoding = "utf-8") as file:
raw_string = file.read()
spilted_string = " ".join(jieba.cut(raw_string))
mask = np.array(image.open("logo.png"))
wordcloud_image = wordcloud.WordCloud(font_path = "font.otf",background_color = "white",
mask = mask,scale = 7)
wordcloud_image.generate(spilted_string)
wordcloud_image.to_file("output.png")



效果就是前面的两张图那样,不重复发了。
有 Python 大神知道原因吗?
网友评论