新浪微博爬虫代码

作者: 向右奔跑 | 来源:发表于2017-03-07 11:42 被阅读1218次

新浪微博爬虫代码
python大牛一个小时爬去新浪微博千万数据是这样做到的
新浪微博爬虫
猴子都能学会的20行代码登录微博
如何采集新浪微博数据？
python-新浪爬虫之模拟登录
微博爬虫开源项目汇总大全（长期更新、欢迎补充）
使用node搭建自动发图文微博机器人
Python爬虫——新浪微博（网页版）
【视频】快来get新技能--抓包+cookie,爬微博不再是梦

微博爬虫的难点：

登录问题
之前我用了两种方式：1）模拟登录，手动输入验证码，方法见文尾的链接《【图解】Python模拟登录新浪微博》；2）直接用Cookie，把登录过的Cookie复制粘贴到代码中，代码中WeiboSpider中的方式即是。

这次参考了网上代码，使用的用户名+密码的方式登录，注意不是直接登录到新浪微博，而是新浪SSO。

https://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.15)

cookies.py中使用户名密码登录，获取cookie，在middleware.py中设置请求request的cookie。为了防止Ban，可以多帐号随机cookie的方式。

反爬虫措施

代码中没有加浏览器随机请求头（参见之前文章中有），随机代理IP，有空补上。

代码GitHub：https://github.com/ppy2790/weibo2

PS: 之前的文章：
【图解】Python模拟登录新浪微博

新浪微博爬虫代码
整理一下文章《[数据分析] 简书在微博上的分享情况》的代码。微博爬虫的难点：登录问题之前我用了两种方式：1...
python大牛一个小时爬去新浪微博千万数据是这样做到的
爬虫功能：此项目和QQ空间爬虫类似，主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注（详细见此）。代码获取...
新浪微博爬虫
layout: posttitle: 新浪微博爬虫categories: Spiderdescription: 微...
猴子都能学会的20行代码登录微博
猴子都能学会的20行代码登录微博如何登录新浪微博是令许多数据新手（包括我）头疼的大问题。由于新浪的反爬虫策略，网...
如何采集新浪微博数据？
本文主要介绍神箭手“新浪微博采集爬虫”（以下简称“微博爬虫”）的使用教程以及注意事项。新浪微博中有大量高价值的软...
python-新浪爬虫之模拟登录
好了，现在讲述针对Ajax异步请求内容的爬虫实例，以新浪微博为例。首先，新浪微博与前面讲述的两个网站不同的是，需登...
微博爬虫开源项目汇总大全（长期更新、欢迎补充）
SinaSpider- 基于scrapy和redis的分布式微博爬虫。SinaSpider主要爬取新浪微博的个人信...
使用node搭建自动发图文微博机器人
仅供学习交流，请勿用于商业用途，并遵守新浪微博相关规定。代码目录此微博机器人的实现功能如下：模拟登陆新浪微博...
Python爬虫——新浪微博（网页版）
最近事情比较多，所以从上周就开始写的新浪微博爬虫一直拖到了现在，不过不得不说新浪微博的反扒，我只想说我真的服气了。...
【视频】快来get新技能--抓包+cookie,爬微博不再是梦
今天给大家录制了一个爬新浪微博的爬虫，也用到了抓包分析网址，但相较于以前，单纯的使用抓包分析网址在新浪微博是无效的...

网友评论

acda68c89d05:请教一下，获取到的相应的cookies，但是在spider文件中回调paser3的Formrequest请求中会报这个错误
twisted.python.failure.Failure scrapy.spidermiddlewares.httperror.HttpError: Ignoring non-200 response
要怎么解决

6e9f4762f60d:另外你的马拉松头像也很亲切

6e9f4762f60d:必须得赞赏下，用paw都可以加cookie访问成功的，放到scrapy中怎么都不行，换成登录页不行，查看了无数文档啊，累死了，渣渣看不懂不会写。幸亏您的文章解放了我，一下就搞定了。话说，你是如何发现scrapy中的cookie要那样写的呢？

4d8680a45169:请教一下，昨天weibo.cn好像更换了登录逻辑，求教现在该怎么解决呢？

向右奔跑:不是从weibo.cn登录的啊，你看一下代码，试试

鱼头豆腐文:博主的入门爬虫系列在哪里？感觉爬虫很有趣，最近也在学习它的语法，想写个爬虫练练😊😊

向右奔跑:@魚頭豆腐文爬虫专题： http://www.jianshu.com/c/3e3636c40c41，我的Python爬虫文集: http://www.jianshu.com/nb/4204686

6bf4671977ce:你好比如我用帐号a登录了微博，然后退出。之后再用帐号b登录了微博，然后退出。那么我本机的cookie保存的是a和b都有的吗

acda68c89d05:请教一下，获取到的相应的cookies，但是在spider文件中回调paser3的Formrequest请求中会报这个错误
twisted.python.failure.Failure scrapy.spidermiddlewares.httperror.HttpError: Ignoring non-200 response
要怎么解决
6e9f4762f60d:另外你的马拉松头像也很亲切
6e9f4762f60d:必须得赞赏下，用paw都可以加cookie访问成功的，放到scrapy中怎么都不行，换成登录页不行，查看了无数文档啊，累死了，渣渣看不懂不会写。幸亏您的文章解放了我，一下就搞定了。话说，你是如何发现scrapy中的cookie要那样写的呢？
4d8680a45169:请教一下，昨天weibo.cn好像更换了登录逻辑，求教现在该怎么解决呢？
向右奔跑:不是从weibo.cn登录的啊，你看一下代码，试试
鱼头豆腐文:博主的入门爬虫系列在哪里？感觉爬虫很有趣，最近也在学习它的语法，想写个爬虫练练😊😊
向右奔跑:@魚頭豆腐文爬虫专题： http://www.jianshu.com/c/3e3636c40c41，我的Python爬虫文集: http://www.jianshu.com/nb/4204686
6bf4671977ce:你好比如我用帐号a登录了微博，然后退出。之后再用帐号b登录了微博，然后退出。那么我本机的cookie保存的是a和b都有的吗

新浪微博爬虫代码

代码GitHub：https://github.com/ppy2790/weibo2

相关文章

新浪微博爬虫代码

python大牛一个小时爬去新浪微博千万数据是这样做到的

新浪微博爬虫

猴子都能学会的20行代码登录微博

如何采集新浪微博数据？

python-新浪爬虫之模拟登录

微博爬虫开源项目汇总大全（长期更新、欢迎补充）

使用node搭建自动发图文微博机器人

Python爬虫——新浪微博（网页版）

【视频】快来get新技能--抓包+cookie,爬微博不再是梦

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python爬虫

我的编程学习专辑

爬虫专题