美文网首页
python爬虫——scrapy框架总结

python爬虫——scrapy框架总结

作者: 沉吟不语 | 来源:发表于2018-11-01 19:21 被阅读34次

    Scrapy是用python写的一个爬虫框架,当然如果只是写一些简单爬虫,python自己就有做爬虫的库,scrapy只是更加流水线化,各部分分工更加清晰.它的结构如下图:

    scrapy框架流程图

    ① Scrapy Engine

    引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。 详细内容查看下面的数据流(Data Flow)部分

    ② 调度器(Scheduler)

    调度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎

    ③ 下载器(Downloader)

    下载器负责获取页面数据并提供给引擎,而后提供给spider

    ④ Spiders

    Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。 每 个spider负责处理一个特定(或一些)网站

    ⑤ Item Pipeline

    Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、 验证及持久化(例如存取到数 据库中)

    ⑥ 下载器中间件(Downloader middlewares)

    下载器中间件是在引擎及下载器之间的特定钩子(specific hook),处理Downloader传递给引擎的 response。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能

    ⑦ Spider中间件(Spider middlewares)

    Spider中间件是在引擎及Spider之间的特定钩子(specific hook),处理spider的输入(response)和输出 (items及requests)。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能

    流程归纳:

    1.首先下载器下载request回执的html等的response
    2.然后下载器传给爬虫解析
    3.接着爬虫解析后交给调度器过滤,查重等等
    4.最后交给管道,进行爬取数据的处理

    实战应用
    1.创建爬虫项目
    1⃣️scrapy startproject 项目名称
    2⃣️cd进入 文件夹(与项目名称同名) cd到spider文件夹
    3⃣️scrapy genspider 爬虫名称 域
    通用爬虫:scrapy genspider -t crawl 爬虫名称 域
    2.编写items.py
    在这里定义字段
    字段名 = scrapy.Field()
    3.编写spider(爬虫文件)
    先爬后取(获取整个网页内容,再取出有用部分)

    name:爬虫的识别名,它必须是唯一的,在不同的爬虫中你必须定义不同的名字.
    
    start_urls:包含了Spider在启动时进行爬取的url列表。因此,第一个被获取到的页面将是其中之一。后续的URL则从初始的URL获取到的数据中提取。我们可以利用正则表达式定义和过滤需要进行跟进的链接。
    parse():是spider的一个方法。被调用时,每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data),提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。
    这个方法负责解析返回的数据、匹配抓取的数据(解析为 item )并跟踪更多的 URL。
    

    4.存储内容---管道(Pipline)

    数据持久化 :(切记激活管道)
    1.可以自定义数据管道
    def init(self,xxx,xxx,xxx):
    可以设置一些参数,(比如,创建数据库连接,打开文件等等)
    @classmethod
    def from_crawler(cls,crawler):
    crawler:包含了爬虫的一些核心组件,
    可以获取settings中的一些参数
    return cls(xxx,xxx,xxx)

        def open_spider(self,spider):
            可选方法,在爬虫开始的时候会调用
       
        def process_item(self,item,spider):
            所有的item,都会经过这个方法
            在这里做数据持久化(pymongo,mysql)
            方法1
            if isinstance(item,类名):
                做数据插入操作
            elif isinstance(item,类名):
                做数据插入操作
            方法2
                1.在item对应的类中,我们定义一个方法,返回sql语句和要插入的数据
                2.使用item调用这个方法,得到sql语句和要插入的管道
                3.执行插入操作
            
            return item (如果将item,传递给下一个管道,必须要return)
         def close_spider(self,spider):
            可选方法,在爬虫结束的时候会调用
            在这里关闭数据库连接,关闭文件等
    

    相关文章

      网友评论

          本文标题:python爬虫——scrapy框架总结

          本文链接:https://www.haomeiwen.com/subject/oeurzftx.html