python爬取知乎个人信息数据

作者: 9ba4bd5525b9 | 来源:发表于2019-07-02 15:20 被阅读17次

python爬取知乎个人信息数据
Python[requests]爬取知乎个人信息数据!
scrapy实战--爬取知乎用户信息(上)
第五章知乎问题爬取
python 爬取知乎回答
以『公众号』为例，手把手教你爬取PC端数据
Python爬虫新手教程：知乎文章图片爬取器!
Python爬虫新手教程：知乎文章图片爬取器
Python爬虫新手教程：知乎文章图片爬取器
Python爬虫入门教程第二十二讲：知乎文章图片爬取器之二

思路

两个程序。

一个程序负责爬取用户关注和粉丝列表，并把用户名存入set

另一个程序负责根据用户名获取详细信息，存入hash

维护两个列表 1.已爬用户 2.未爬用户

第一个程序的流程：

当未爬set不为空时：执行如下操作：每次从未爬取列表中取出一个用户名根据用户名，获取他的关注与粉丝并遍历，如果用户既没在已爬用户，也没在未爬用户加入未爬用户列表。

第二个程序的流程

每次从未爬set中取出一个用户名，调用接口获取详细信息并存入redishash中

接口获取

打开某个人的个人主页，按F12

选择XHR 然后点击图1的关注我的人，和我关注的人，在图2就可以看到header和cookie。

获取用户列表Api:

https://www.zhihu.com/api/v4/...{username}/{type}?include=data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset=20&limit=20

username 是用户名，

type 是类型，有两种可选 [followers,followees]， followers是粉丝 followees是关注

改变offset的值可以获取分页

获取个人信息Api:

https://www.zhihu.com/people/...

user_token是用户名

这个api中返回的是html页面，在html页面中有一个scirpt标签里面的内容是json格式的用户信息，这就很方便了，直接获取键值对对应的属性就ok。

发送请求

F12查看接口，把header和cookie放进requests.get()方法中。

剩下的就很简单了，不赘述了。

GitHub：https://github.com/MasakiOvO/zhihu-userinfo-spider

网友评论

python

本文标题：python爬取知乎个人信息数据

本文链接：https://www.haomeiwen.com/subject/cmozcctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

python爬取知乎个人信息数据

相关文章