新浪微博爬虫代码

作者: 向右奔跑 | 来源:发表于2017-03-07 11:42 被阅读1218次

整理一下文章 《[数据分析] 简书在微博上的分享情况》 的代码。

微博爬虫的难点:

  1. 登录问题
    之前我用了两种方式:1)模拟登录,手动输入验证码,方法见文尾的链接《【图解】Python模拟登录新浪微博》;2)直接用Cookie,把登录过的Cookie复制粘贴到代码中,代码中WeiboSpider中的方式即是。

这次参考了网上代码,使用的用户名+密码的方式登录,注意不是直接登录到新浪微博,而是新浪SSO。

https://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.15)

cookies.py中使用户名密码登录,获取cookie,在middleware.py中设置请求request的cookie。为了防止Ban,可以多帐号随机cookie的方式。

  1. 反爬虫措施

代码中没有加浏览器随机请求头(参见之前文章中有),随机代理IP,有空补上。

代码GitHub:https://github.com/ppy2790/weibo2


PS: 之前的文章:
【图解】Python模拟登录新浪微博

相关文章

网友评论

  • acda68c89d05:请教一下,获取到的相应的cookies,但是在spider文件中 回调paser3的Formrequest请求中 会报这个错误
    twisted.python.failure.Failure scrapy.spidermiddlewares.httperror.HttpError: Ignoring non-200 response
    要怎么解决
  • 6e9f4762f60d:另外你的马拉松头像也很亲切
  • 6e9f4762f60d:必须得赞赏下,用paw都可以加cookie访问成功的, 放到scrapy中怎么都不行,换成登录页不行,查看了无数文档啊,累死了,渣渣看不懂不会写。幸亏您的文章解放了我,一下就搞定了。话说,你是如何发现scrapy中的cookie要那样写的呢?
  • 4d8680a45169:请教一下,昨天weibo.cn好像更换了登录逻辑,求教现在该怎么解决呢?
    向右奔跑:不是从weibo.cn登录的啊,你看一下代码,试试
  • 鱼头豆腐文:博主的入门爬虫系列在哪里?感觉爬虫很有趣,最近也在学习它的语法,想写个爬虫练练😊😊
    向右奔跑:@魚頭豆腐文 爬虫专题: http://www.jianshu.com/c/3e3636c40c41, 我的Python爬虫文集: http://www.jianshu.com/nb/4204686
  • 6bf4671977ce:你好 比如我用帐号a登录了微博,然后退出。之后再用帐号b登录了微博,然后退出。那么我本机的cookie保存的是a和b都有的吗

本文标题:新浪微博爬虫代码

本文链接:https://www.haomeiwen.com/subject/bgxmgttx.html