美文网首页我爱编程
scrapy爬取新浪微博分享(1)

scrapy爬取新浪微博分享(1)

作者: 要读博士 | 来源:发表于2017-08-03 12:09 被阅读0次

内容概要:

最近自己学习了一些爬虫,学习之余,写了一个新浪微博的爬虫。大规模爬数据没有试过,但是爬取几十万应该没有什么问题。爬虫爬取的站点是新浪移动端站点。github地址为:https://github.com/yz21606948/sinaSpider

第一次写文章,难免有疏忽,大家共同交流,共同进步。也请喜欢的朋友,在github上打个star

内容分为三章,第一张介绍scrapy,第二张分析爬取网站,第三章分析代码。

Scrapy 介绍

scrapy 是一个为爬取网站数据,提取结构性数据而编写的应用框架。scrapy是一个非常强大且好用的爬虫框架,它不仅提供了一些开箱即用的基础组件,还提供强大的自定义功能。

安装Scrapy

最好使用conda安装。我试过手动安装,要安装很多的依赖库,会花费很长的时间。但是使用conda很快就能安装好了。conda是一个管理Python的神器。

程序目录介绍

scrapy startproject [yourproject] 命令将会创建一个scrapy项目。

scrapy.cfg 是项目的配置文件。

setting.py 用于设置请求的参数,使用代理,爬虫数据后文件保存等等。

/spider/sinaSpider.py 是爬虫的主要代码。

middlewares.py 是scrapy的请求/相应相关处理的中间键。主要是UserAgent的轮换,Cookies的轮换,代理的轮换等。

items.py 是需要提取的数据结构定义的文件

pipelines.py:是对items里面提取的数据做进一步处理,对mongdb的连接就在这里面。

下面是Scrapy官网提供的scrapy结构图,可以加深对scrapy的理解。

程序用到的其他库或软件

selenium: 一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。我们使用selenium主要是模拟用户的行为登录微博,拿到cookies

PhantomJS是一个无界面的,可脚本编程的WebKit浏览器引擎。它原生支持多种web标准:DOM操作,CSS选择器,JSON,Canavs等。

参考:

1、《Python网络数据采集》

2、http://blog.csdn.net/bone_ace/article/details/50903178

相关文章

  • scrapy爬取新浪微博分享(1)

    内容概要: 最近自己学习了一些爬虫,学习之余,写了一个新浪微博的爬虫。大规模爬数据没有试过,但是爬取几十万应该没有...

  • scrapy爬取新浪微博分享(2)

    内容概要: 最近自己学习了一些爬虫,学习之余,写了一个新浪微博的爬虫。大规模爬数据没有试过,但是爬取几十万应该没有...

  • scrapy爬取新浪微博分享(3)

    内容概要: 最近自己学习了一些爬虫,学习之余,写了一个新浪微博的爬虫。大规模爬数据没有试过,但是爬取几十万应该没有...

  • 微博爬虫开源项目汇总大全(长期更新、欢迎补充)

    SinaSpider- 基于scrapy和redis的分布式微博爬虫。SinaSpider主要爬取新浪微博的个人信...

  • Python功能太强大,我劝你最好别学 !

    基于Requests和Ajax分析法的新浪微博内容及用户信息爬取 1 项目介绍 新浪微博:新浪微博是一个由新浪网推...

  • Python 实战项目

    web机器人 web实战 博客BBS论坛系统 成绩管理系统 新闻系统 爬取知乎 爬取豆瓣 爬取京东 爬取新浪微博 ...

  • 抓取微博热搜榜单

    1. 引言 利用scrapy框架爬取微博热搜榜[https://s.weibo.com/top/summary]网...

  • Python爬取新浪微博

    第一步:选择从手机端爬取 新浪微博手机端地址:https://m.weibo.cn/登录自己的微博账号。 第二步:...

  • python-新浪爬取话题微博实践

    说完模拟登录之后呢,现在讲述对于手机端新浪的爬取过程,此例讲述针对Ajax异步请求内容的爬取,以新浪微博“小黄车”...

  • scrapy 爬取新浪账号

    前两天晚上对新浪微博的账号信息进行了爬去,10几个小时爬了30几万的数据,然后我的微博就被封号了,微博一个小时大概...

网友评论

    本文标题:scrapy爬取新浪微博分享(1)

    本文链接:https://www.haomeiwen.com/subject/xytplxtx.html