谈一谈简书数据的爬取

作者: 向右奔跑 | 来源:发表于2017-03-01 07:46 被阅读1148次

谈一谈简书数据的爬取
简书风云榜
实现简书数据爬取
分享爬取简书数据
简书=鸡汤？爬取今日看点数据：1916篇简书热门文章可视化
##[Deserts_X]爬取简书26万+用户信息：数据可视化
简书7日热门文章数据分析+更新推送（持续更新···）
[Deserts_X]爬取简书26万+用户信息：数据可视化
利用scrapy爬取简书文章并保存到数据库
爬取简书数据生成api

前天的文章发出之后有简友留言说，是看我的专题文章学习爬虫的，并告诉我，简书更新新版网站后，我是第一个讲解的，他当时能搜到的全是旧版本的文章。今天来详细说说简书的数据抓取。

学习Python爬虫离不开大量练习实战，爬～爬～爬，本着“所有网站皆可爬”的原则，只要你感兴趣的网站数据都可以拿来练习，一般在初学时大家练得比较多的是，豆瓣、知乎和新浪微博，堪称“爬手三大练手地”，但是近半年多来，爬取简书学习和练习的童鞋越来越多。

那大家对简书上哪些数据会比较感兴趣，其结构和关键点又是如何？在学习的爬虫中又需要注意哪些？

一、网站整体结构

我是从一个爬虫的角度来说的。基本可以归为以下几种类型页面：

第一类：首页，新上榜，7日热门，30日热门，专题页面
都属于（多个作者的）文章列表页，获得文章基本数据，可以获取数据进行分析：

简书首页文章的阅读量分析，如果抓取了不同时间的可以做对比分析，如大家现在普通感觉文章上了首页阅读量比之前要少，究竟减少了多少，主要原因是什么？

上首页的热门文章的类型，标题有什么特点？

是哪些作者经常上首页，霸占了首页热点，有什么特点？还可以不同时间的对比分析，如半年前与现在对比。

这类分析比较难的是文章类型，简书对文章没有类型的标注，如TAG类型，只有专题的不同，但是专题之间有些还是有比较多的交叉重合。建议文章在发表时，作者可以设置文章类型标记。目前想对大量文章进行分类只能使用机器学习、NLP。

要获取专题收录情况，首页文章会显示一个主要的专题收录，在文章页面可以获取这篇文章的所有专题收录。

第二类：作者主页

这个页面的数据比较多，可分为：

1）作者基本数据（用户基础数据）：文章数、字数、粉丝数、喜欢数
简书作者大排名一类的分析文章，每隔一段时间都会有，也比较受欢迎，主要就是要获取这些数据。
2）文章数据：包括作者的每篇文章数据：阅读量、评论数、获赞和打赏
曾有一个作者，因为出书的需要，要解自己所有文章的总阅读量和评论量，就帮助爬过一遍他的文章数据。
我之前写过用一键生成简书目录，简书连载作者福音: 一键生成连载目录和连载作品排行统计（Python爬虫应用）
3）动态数据（timeline）：可以获取，作者的注册时间，作者打赏他人、评论他人文章的情况，这些反应了用户的活跃情况。
我之前写过一篇文章，“简书首席评论员”的诞生与消失，就是找那些没有发表文章，却写了很多评论的用户。

比较遗憾的是个人主页上没有更多的作者个人信息，这个相对于豆瓣、新乎、微博来说，个人信息是比较少的，如性别、年龄、学校、地域地址等。
4）消息中的数据：收到的喜欢和赞，关注
爬取这些数据需要登录，我使用的是Cookie的登录方式，避免了简书登录需要滑动解锁。

这些数据可以分析，作者的粉丝、获赞的增长情况。

消息中的简信，这个我写过一个简信助手，Python实现的站内消息群发助手-V1.0，不过是针对旧版网站的。

消息中还可以爬取专题投稿收录情况，这个适用于专题运营者。