美文网首页
简书数据采集告一段落,数据开放免费下载

简书数据采集告一段落,数据开放免费下载

作者: 初心不变_叶子 | 来源:发表于2020-09-01 16:46 被阅读0次

上一篇文章说了要抽时间采集更大范围内的数据,今天,我带着数据走来了。

首页数据共 140 条,简友广场专题共 590 条。

全部数据已经完成清洗,可以直接开始分析,可下载 .xlsx 和 .csv 两种格式。

首页数据包括:

  • 文章标题
  • 获得简书钻数量
  • 评论数量
  • 点赞数量
  • 发布日期
  • 发布时间
  • 总字数
  • 阅读量

专题数据包括:

  • 文章标题
  • 评论数量
  • 点赞数量
  • 发布日期
  • 发布时间
  • 总字数
  • 阅读量

这波数据爬了两个小时,期间出现了一些错误,但数据整体没有受到影响。由于使用采集软件的未知原因(Python 可以做,但我比较懒),有些数据错位了,被我手动删掉。

简书专题的反爬做的一般般,但首页反爬还是不错的,未登录用户只能浏览七页内容,我费尽千辛万苦搞到了一个刚刚注册的账号,给大家爬取数据。

首页信息流采用的是瀑布流加分页的形式,还需要手动处理,这一点着实卡了我不少时间。

看到这里,一些不懂技术的简友们要问了,你采集这个有用吗?

给大家来点有视觉冲击力的,词云图安排。

为了避开各种在线词云工具的限制,我装了 Python 用代码实现了词云生成:

简书首页采集文章词云图 简友广场采集文章词云图

大家可以点击这个链接并跳转到浏览器下载数据进行分析,鉴于作者时间有限,在此不给大家做像上一篇文章那样的分析了,如果大家会简单的 Excel 图表,可以自己完成数据分析。

当然,也欢迎大神用代码实现可视化之类,如果有大神完成了分析,可以发到评论区让大家观赏。

后面是技术问题的请教,不懂技术的可以关掉文章界面了。


本来想搞定一个和简书 Logo 类似图形的词云图,但无论怎么调整代码都无法做到预期的效果,图片是透明的,代码运行时没有出现报错。以下是代码:

import wordcloud
import jieba
import numpy as np
import PIL.Image as image

with open("raw.txt","r",encoding = "utf-8") as file:
    raw_string = file.read()
    spilted_string = " ".join(jieba.cut(raw_string))

mask = np.array(image.open("logo.png"))
    
wordcloud_image = wordcloud.WordCloud(font_path = "font.otf",background_color = "white",
                            mask = mask,scale = 7)
wordcloud_image.generate(spilted_string)
wordcloud_image.to_file("output.png")

我安装的库 Python 版本 logo.png

效果就是前面的两张图那样,不重复发了。

有 Python 大神知道原因吗?

相关文章

网友评论

      本文标题:简书数据采集告一段落,数据开放免费下载

      本文链接:https://www.haomeiwen.com/subject/pwvvsktx.html