scrapy与全站爬虫

作者: 眼君 | 来源:发表于2017-08-30 08:43 被阅读238次

创建crawlscrapy的模版：

>>>scrapy genspider --list

scrapy genspider --list

其中crawl模版就是本次用于编写全站爬虫所用。

创建模版

使用该模版创建爬虫的命令：

>>>scrapy genspider -t crawl XXX(脚本名) XXX(目标网站域名)

于是在spiders下出现量一个脚本：

爬虫脚本

在settings.py中将项目的根目录插入python的环境变量中，方便后面路径的引用等操作。

插入

打开spider下的脚本，填充Rule部分的内容，Rule的作用是用正则表达式匹配对应的URL并进行回调，可以是一个正则表达式字符串或者是一个正则表达式元组:

填充Rules部分

然后在main.py中启动脚本

在items.py中构造一个对应的数据类：

items.py

打开spider下的脚本，引入item并配置好数据。

配置好数据

在middlewares.py中引入selenium,用于处理特定的页面，并返回一个response

配置中间键

别忘了在settings.py中设置一下：

settings.py

优化一下，我们可以把selenium启动浏览器后的状态写到一个类实例的初始化函数里，这样以后就不需要频繁启动浏览器了：

优化

但是这样做后还是有一个小问题，就是浏览器访问页面完成后，spider都finished了，浏览器却没有关闭。基于此，我们进一步优化一下，把浏览器打开的过程直接写到spider里面。然后在middlewares.py中把self.broswer改成spider.broswer。

scrapy自带一个加载动态页面的工具，scrapy-splash。

scrapy与全站爬虫
创建crawlscrapy的模版： >>>scrapy genspider --list 其中crawl模版就是本...
分布式爬虫笔记（一）- 非框架实现的Crawlspider
不久前写过一篇使用Scrapy框架写的Crawlspider爬虫笔记（五）- 关于Scrapy 全站遍历Crawl...
基于Python的信息检索课程设计
sdu视点新闻全站爬虫爬取+索引构建+搜索引擎查询练习程序爬虫功能使用Python的scrapy库实现，并用Mo...
scrapy_redis分布式爬虫
说到redis了，自然就要说到另一个爬虫框架scrapy_redis，分布式爬虫，scrapy与scrapy_re...
Pycharm+Scrapy框架运行爬虫糗事百科（无items数
scrapy爬虫框架 qsbk.py 爬虫代码 import scrapy'''scrapy框架爬虫流程：发送请求...
Scrapy框架之CrawlSpider操作 2018-11-0
提问：如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话，有几种实现方法？方法一：基于Scrapy框架中的Sp...
Scrapy笔记
Scrapy笔记 pip 指定源安装模块创建Scrapy项目创建Scrapy爬虫程序启动Scrapy爬虫在...
scrapy爬虫
运行爬虫 scrapy crawl +<爬虫名字>Scrapy的安装：pip install scrapy创建s...
深度爬虫
scrapy深度爬虫 1.深度爬虫概述2.scrapy Spider实现的什么爬虫3.scrapy CrawlSp...
爬虫框架常见命令（善忘者）
1 scrapy 创建scrapy 爬虫项目生成一个爬虫启动爬虫 2 scrapy-crawl 生成一个cr...