简书数据采集告一段落，数据开放免费下载

作者: 初心不变_叶子 | 来源:发表于2020-09-01 16:46 被阅读0次

简书数据采集告一段落，数据开放免费下载
生信文章数据分析--TCGA差异表达分析
免费数据集下载
《大数据时代》PDF高清完整版-免费下载
TuShare 财经数据接口包
【精品推荐】一个经典的财经数据包
金融量化数据分析利器(tushare)
Tushare财经数据接口库
python网络基础工具书籍下载-持续更新
2019-01-01 08数据采集如何自动化采集数据？

上一篇文章说了要抽时间采集更大范围内的数据，今天，我带着数据走来了。

首页数据共 140 条，简友广场专题共 590 条。

全部数据已经完成清洗，可以直接开始分析，可下载 .xlsx 和 .csv 两种格式。

首页数据包括：

文章标题
获得简书钻数量
评论数量
点赞数量
发布日期
发布时间
总字数
阅读量

专题数据包括：

文章标题
评论数量
点赞数量
发布日期
发布时间
总字数
阅读量

这波数据爬了两个小时，期间出现了一些错误，但数据整体没有受到影响。由于使用采集软件的未知原因（Python 可以做，但我比较懒），有些数据错位了，被我手动删掉。

简书专题的反爬做的一般般，但首页反爬还是不错的，未登录用户只能浏览七页内容，我费尽千辛万苦搞到了一个刚刚注册的账号，给大家爬取数据。

首页信息流采用的是瀑布流加分页的形式，还需要手动处理，这一点着实卡了我不少时间。

看到这里，一些不懂技术的简友们要问了，你采集这个有用吗？

给大家来点有视觉冲击力的，词云图安排。

为了避开各种在线词云工具的限制，我装了 Python 用代码实现了词云生成：

简书首页采集文章词云图

简友广场采集文章词云图

大家可以点击这个链接并跳转到浏览器下载数据进行分析，鉴于作者时间有限，在此不给大家做像上一篇文章那样的分析了，如果大家会简单的 Excel 图表，可以自己完成数据分析。

当然，也欢迎大神用代码实现可视化之类，如果有大神完成了分析，可以发到评论区让大家观赏。

后面是技术问题的请教，不懂技术的可以关掉文章界面了。

本来想搞定一个和简书 Logo 类似图形的词云图，但无论怎么调整代码都无法做到预期的效果，图片是透明的，代码运行时没有出现报错。以下是代码：

import wordcloud
import jieba
import numpy as np
import PIL.Image as image

with open("raw.txt","r",encoding = "utf-8") as file:
    raw_string = file.read()
    spilted_string = " ".join(jieba.cut(raw_string))

mask = np.array(image.open("logo.png"))
    
wordcloud_image = wordcloud.WordCloud(font_path = "font.otf",background_color = "white",
                            mask = mask,scale = 7)
wordcloud_image.generate(spilted_string)
wordcloud_image.to_file("output.png")