美文网首页我用Pythonpython爬虫Python
Python爬虫学习(八)爬取知乎关注用户

Python爬虫学习(八)爬取知乎关注用户

作者: 弃用中 | 来源:发表于2017-09-08 10:51 被阅读419次

当我们想查看自己的知乎关注列表时,首先面临的情况就是,我们得登录。

登录之后,我们就可以看到自己的关注列表,

使用Chrome浏览器查看Network选项卡,我们发现,关注列表的信息来自一个Ajax请求,

那么,如何在代码中实现关注用户爬取呢?先做一个小测试,

遗憾的是,运行之后,毛线都没有,还报了一波错误:

未授权!

Web服务器认为,客户端(例如您的浏览器或我们的 CheckUpDown 机器人)发送的 HTTP 数据流是正确的,但进入网址 (URL) 资源 , 需要用户身份验证 , 而相关信息 1 )尚未被提供, 或 2 )已提供但没有通过授权测试。这就是通常所知的“ HTTP 基本验证 ”。 需客户端提供的验证请求在 HTTP 协议中被定义为 WWW – 验证标头字段 (WWW-Authenticate header field) 。
一般来说该错误消息表明您首先需要登录(输入有效的用户名和密码)。 如果你刚刚输入这些信息,立刻就看到一个 401 错误,就意味着,无论出于何种原因您的用户名和密码其中之一或两者都无效(输入有误,用户名暂时停用,等) 。

这个时候,怎么办呢?
在请求头加入Cookie就好,至于Cookie是什么,大家可以看看HTTP cookies详解
同样是在Chrome中,我们可以看到请求时的Cookie:

编写爬虫程序时,将其加入到请求头中即可:

运行结果如下:

成功得获取到了关注用户,如果想获取更多的关注,将代码的请求参数调整一下即可。

当然,还有很多其他使用Cookie的方法,详情请看:Urllib库及cookie的使用

以上。

相关文章

  • Python爬虫学习(八)爬取知乎关注用户

    当我们想查看自己的知乎关注列表时,首先面临的情况就是,我们得登录。 登录之后,我们就可以看到自己的关注列表, 使用...

  • Python学习博客

    廖雪峰 runoob github 知乎回答练手项目 Python学习路线 虫师 有哪些网站用爬虫爬取能得到很有价...

  • 分布式爬虫爬取知乎用户—页面分析篇

    使用python3爬取知乎用户信息并分析 参考了:呓语 » 如何写一个简单的分布式知乎爬虫?打算自己做一个pyth...

  • python爬虫之知乎话题精华答案

    之前听了几堂公司的python培训,于是要找个机会练习下。 用python写一个爬虫,爬取知乎“Python”话题...

  • 一个不那么典型的Python爬虫

    PYTHON爬虫入门&视频网站BILIBILI用户爬取爬虫详解 前言 Python使用版本:2.7 得到数据挖掘的...

  • Java 知乎爬虫

    目标 爬取知乎用户信息,并作简要分析。所爬的对象是关注者≥10的用户,因为: 关注者数量<10的用户,很多的僵尸用...

  • 每日一记

    1.关于python的学习,今天很杂: (1)继续在爬虫上学习,出现了尚未解决的问题,爬知乎模拟浏览器并自动用户名...

  • 每日一记

    1.关于python的学习,今天很杂: (1)继续在爬虫上学习,出现了尚未解决的问题,爬知乎模拟浏览器并自动用户名...

  • 各类链接

    爬虫 使用python-aiohttp爬取今日头条 【Python】爬虫爬取各大网站新闻 Scrapy 模拟登录新...

  • Python学习

    python爬虫(五) python爬虫爬取豆瓣电影Top250数据 利用python爬取豆瓣电影TOP250页面...

网友评论

  • 8433d34f8097:非常感谢简主,刚才遇到的一个gbk编码问题,解决了。感谢你编写的一系列好文章。
    弃用中:@leeing 感谢支持😜

本文标题:Python爬虫学习(八)爬取知乎关注用户

本文链接:https://www.haomeiwen.com/subject/ftlgjxtx.html