美文网首页
第五章:Scrapy笔记(一)

第五章:Scrapy笔记(一)

作者: 马本不想再等了 | 来源:发表于2019-02-08 21:59 被阅读0次
    Scrapy架构图

    Scrapy框架模块功能:

    1. Scrapy Engine(引擎):Scrapy框架的核心部分。负责在Spider和ItemPipeline、Downloader、Scheduler中间通信、传递数据等。
    2. Spider(爬虫):发送需要爬取的链接给引擎,最后引擎把其他模块请求回来的数据再发送给爬虫,爬虫就去解析想要的数据。这个部分是我们开发者自己写的,因为要爬取哪些链接,页面中的哪些数据是我们需要的,都是由程序员自己决定。
    3. Scheduler(调度器):负责接收引擎发送过来的请求,并按照一定的方式进行排列和整理,负责调度请求的顺序等。
    4. Downloader(下载器):负责接收引擎传过来的下载请求,然后去网络上下载对应的数据再交还给引擎。
    5. Item Pipeline(管道):负责将Spider(爬虫)传递过来的数据进行保存。具体保存在哪里,应该看开发者自己的需求。
    6. Downloader Middlewares(下载中间件):可以扩展下载器和引擎之间通信功能的中间件。
    7. Spider Middlewares(Spider中间件):可以扩展引擎和爬虫之间通信功能的中间件。

    Scrapy文档

    1. Scrapy官方文档
    2. Scrapy中文文档

    安装Scrapy框架

    1. 安装‘scrapy’:通过‘pip install scrapy’即可安装。
    2. 如果在windows下,还需要安装‘pypiwin32’,安装方式‘pip install pipiwin32’。
    3. 如果在ubuntu下,还需安装以下三方库:‘sudo apt-get install python3-dev build-essential python3-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev’,然后再通过pip install scrapy安装。

    创建项目和爬虫:

    1. 创建项目:‘scrapy startproject +爬虫的名字’。
    2. 创建爬虫:进入到项目所在路径,执行命令:scrapy genspider +爬虫的名字 +"爬虫的域名"。注意,爬虫的名字不能和项目名称一致。

    项目目录结构:

    1. items.py:用来存放爬虫爬取下来数据的模型。
    2. middlewares.py:用来存放各种中间件的文件。
    3. pipelines.py:用来将items的模型存储到本地磁盘中。
    4. settings.py:本爬虫的一些配置信息(比如请求头、多久发送一次请求、ip代理池等)。
    5. scrapy.cfg:项目的配置文件。
    6. spiders包:以后所有的爬虫,都是存放到这个里面。

    糗事百科案例Scrapy爬虫笔记

    1. response是一个‘scrapy.http.response.html.HtmlResponse’对象。可以执行‘xpath’和‘css’语法来提取数据。
    2. 提取出来的数据,是一个‘Selector’或者是一个‘SelectorList’对象。如果想要获取其中的字符串,那么应该执行‘getall’或者‘get’方法。
    3. getall方法:获取‘Selector’中的所有文本。返回的是一个列表。
    4. get方法:获取‘Selector’中得第一个文本。返回的是一个str类型。
    5. 如果数据解析回来,要传给pipeline处理。那么可以使用‘yield’来返回。或者是收集所有的item,最后统一使用return返回。
    6. item:建议在‘items.py’中定义好模型。以后就不要使用字典。
    7. pipeline:这个是专门用来保存数据的。其中有三个方法时会经常用到:
      *‘open_spider(self, spider)’:当爬虫打开的时候执行。
      *‘process_item(self, item, spider)’:当爬虫有item传过来的时候被调用。
      *‘close_spider(self, spider)’:当爬虫关闭的时候执行。
      要激活pipeline,应该在‘settings.py’中,设置‘ITEM_PIPELINES’。

    JsonItemExporter和JsonLinesItemExporter:

    保存json数据的时候,可以使用这两个类,让操作变得更简单。

    1. ‘JsonItemExporter’:每次把数据添加到内存中。最后统一写入到磁盘中。优点:存储的数据满足json规则的数据。缺点:当数据量比较大时,内存消耗严重。示例代码如下:
    from scrapy.exporters import JsonItemExporter
    
        class QsbkPipeline(object):
            def __init__(self):
                self.fp = open("joke.json", "wb")
                self.exporter = JsonItemExporter(self.fp, ensure_ascii=False, encoding='utf-8')
                self.exporter.start_exporting()
        
            def open_spider(self, spider):
                print("爬虫开始了")
        
            def process_item(self, item, spider):
                self.exporter.export_item(item)
                return item
        
            def close_spider(self, spider):
                self.exporter.finish_exporting()
                self.fp.close()
                print("爬虫结束了")
    
    1. ‘JsonLinesItemExporter’:每次调用‘export_item’的时候就把这个item存储到硬盘中。优点:内存消耗低,数据安全性高。缺点:每一个字典是一行,整个文件不是一个满足json格式的文件。示例代码如下:
    from scrapy.exporters import JsonLinesItemExporter
    
        class QsbkPipeline(object):
            def __init__(self):
                self.fp = open("joke.json", "wb")
                self.exporter = JsonLinesItemExporter(self.fp, ensure_ascii=False, encoding='utf-8')
        
            def open_spider(self, spider):
                print("爬虫开始了")
        
            def process_item(self, item, spider):
                self.exporter.export_item(item)
                return item
        
            def close_spider(self, spider):
                self.fp.close()
                print("爬虫结束了")
    

    相关文章

      网友评论

          本文标题:第五章:Scrapy笔记(一)

          本文链接:https://www.haomeiwen.com/subject/zqgosqtx.html