Spider网络爬虫

作者: 落寒z | 来源:发表于2018-12-06 11:12 被阅读15次

python爬虫初体验
Python Scrapy 实战
用Java实现网络爬虫一之项目介绍
用Java实现网络爬虫三之开始爬取
Spider网络爬虫
你对python爬虫略知一二？来看这篇文章我让你快速入门！
初识Spider
python爬虫入门，8分钟就够了，这是我见过最简单的基础教学
python爬虫入门，10分钟就够了，这可能是我见过最简单的基础
python爬虫入门，10分钟就够了，这可能是我见过最简单的基础

1.结构图

1.1.组件结构

spider架构.png

1.2.项目结构

tutorial/
    scrapy.cfg            # 部署配置文件，主要为Scrapy命令行工具提供一个基础的配置信息。（真正爬虫相关的配置信息在settings.py文件中）

    tutorial/             # Python模块,代码写在这个目录下
        __init__.py

        items.py          # 项目项定义文件，设置数据存储模板，用于结构化数据

        pipelines.py      # 项目管道文件，数据处理行为

        settings.py       # 项目设置文件，配置文件

        spiders/          # 我们的爬虫，爬虫目录
            __init__.py

2.组件说明

引擎(Scrapy)

用来处理整个系统的数据流处理, 触发事务(框架核心)

调度器(Scheduler)

用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

下载器(Downloader)

用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)

爬虫(Spiders)

爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面

项目管道(Pipeline)

负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

下载器中间件(Downloader Middlewares)

位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。

爬虫中间件(Spider Middlewares)

介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。

调度中间件(Scheduler Middewares)

介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。

3.运行流程

1.引擎从调度器中取出一个链接(URL)用于接下来的抓取
2.引擎把URL封装成一个请求(Request)传给下载器
3.下载器把资源下载下来，并封装成应答包(Response)
4.爬虫解析Response
5.解析出实体（Item）,则交给实体管道进行进一步的处理
6.解析出的是链接（URL）,则把URL交给调度器等待抓取

4.命令工具

4.1. startproject --创建项目

scrapy startproject <项目名>

4.2. crawl --运行爬虫

scrapy crawl <爬虫> --nolog

4.3.setting --输出项目设定的值

语法：scrapy settings [options]
例子：scrapy settings --get BOT_NAME

4.4.runspider --未创建项目情况下运行一个spider模块

语法：scrapy runspider <spider_file.py>
例子：scrapy settings xxspider.py

4.5.shell--用来启动Scrapy Shell

语法：scrapy shell <url>
例子：scrapy shell "http://www.baidu.com"

4.6.fetch--使用scrapy下载器下载给定的url，输出内容

语法：scrapy fetch  options  <url>
例子：scrapy fetch  --nolog  "http://www.baidu.com"

4.7.view--在浏览器中打开给定的url

语法：scrapy view  <url>
例子：scrapy view  "http://www.baidu.com"

4.8.version--输出scrapy版本

语法：scrapy version  [-v]
例子：scrapy version  [-v]

4.9.check--运行contract检查

scrapy check  -l

4.10.list--输出当前项目中的所有spider

scrapy list

4.11.edit--设定编辑器编辑给定的spider

scrapy edit  <爬虫名>

4.12. parse--获取给定的url并使用相应的spider分析结果

scrapy parse --spider=myspider -c parse_item -d 2 <item_url>

4.13. genspider--在当前项目中创建spider

scrapy genspider -l

5.几个收集的爬虫项目的传送门

http://www.cnblogs.com/jinxiao-pu/p/6706319.html

https://github.com/Jack-Cherish/python-spider

https://github.com/facert/awesome-spider

https://github.com/luyishisi/Anti-Anti-Spider

https://github.com/leng-yue/Lengyue-Vcode

6.查阅参考资料：

Scrapy爬虫入门教程

爬虫框架Scrapy之Spider

Python Spider

python spider

Python开发轻量级爬虫

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

网友评论

本文标题：Spider网络爬虫

本文链接：https://www.haomeiwen.com/subject/giyncqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Spider网络爬虫

1.结构图

1.1.组件结构

1.2.项目结构

2.组件说明

引擎(Scrapy)

调度器(Scheduler)

下载器(Downloader)

爬虫(Spiders)

项目管道(Pipeline)

下载器中间件(Downloader Middlewares)

爬虫中间件(Spider Middlewares)

调度中间件(Scheduler Middewares)

3.运行流程

4.命令工具

5.几个收集的爬虫项目的传送门

6.查阅参考资料：

Scrapy爬虫入门教程

爬虫框架Scrapy之Spider

Python Spider

python spider

Python开发轻量级爬虫

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

相关文章

python爬虫初体验

Python Scrapy 实战

用Java实现网络爬虫一之项目介绍

用Java实现网络爬虫三之开始爬取

Spider网络爬虫

你对python爬虫略知一二？来看这篇文章我让你快速入门！

初识Spider

python爬虫入门，8分钟就够了，这是我见过最简单的基础教学

python爬虫入门，10分钟就够了，这可能是我见过最简单的基础

python爬虫入门，10分钟就够了，这可能是我见过最简单的基础

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读