美文网首页
scrapy学习

scrapy学习

作者: 青元子cyan | 来源:发表于2020-06-19 22:59 被阅读0次

    1,建立工程

    打开cmd,输入:

    scrapy startproject python123demo
    

    其中,spyderdemo是项目名称。
    而后,工程生成一个目录,名为python123demo,该目录下有两个文件:一个文件夹名为python123demo,一个文件名为:scrapy.cfg。其中scrapy.cfg为部署Scrapy爬虫的配置文件。即将该爬虫放在特定服务器上,并在服务器上配置好接口。本机使用时,无需修改此文件。

    • python123demo
      • python123demo
        - _init_.py
        - items.py
        - middlewares.py
        - pipelines.py
        - settings.py
        • spiders
          - _init_ .py
          - peache目录
      • scrapy.cfg

    其中
    init .py →初始化脚本,不需要编写
    items .py→Items代码模板(继承类),几乎不需要编写
    middlewares.py → Middlewares代码模板(继承类) 有时需要编写
    pipelines. py →Pipelines代码模板(继承类)
    settings. py → Scrap爬虫的配置文件。优化爬虫功能时需要修改
    spiders目录,→ Spiders代码模板目录(继承类) ,存放python123demo这个工程中建立的爬虫

    • spiders/ Spiders代码模板目录(继承类)
      - init .py 初始文件,无需修改
      - peache 缓存目录,无需修改

    2,建立爬虫

    继续在cmd工程目录下输入:

    scrapy genspider demo python123.io
    

    作用:生成一个名为demo的爬虫

    3,配置该爬虫

    具体而言,就是修改demo.py这个文件如下:

    import scrapy
    
    class DemoSpider(scrapy.Spider):
        name = 'demo'
        # allowed_domains = ['python123.io']
        start_urls = ['http://python123.io/ws/demo.html']
    
        def parse(self, response):
            fname = response.url.split('/')[-1]
            with open(fname, 'wb') as f:
                f.write(response.body)
            self.log('Saved file %s.' % fname)
    

    4,运行爬虫,获取网页

    打开cmd,在工程目录下执行

    scrapy crawl demo
    
    Scrapy爬虫的使用步骤:

    1,创建一个工程和Spider模板
    2,编写Spider
    3,编写ItemPipeline
    4,优化配置策略

    Scrapy爬虫的数据类型

    1,Request类
    Request对象表示一个HTTP请求。由Spider生成,由Downloader执行

    • .urI Request对应的请求URL地址
    • .method对应的请求方法, GETHPOST等
    • .headers字典类型风格的请求头
    • .body请求内容主体,字符串类型
    • .meta用户添加的扩展信息,在 Scrap内部模块间传递信息使用
    • .copy复制该请求

    2,Response类
    Response对象表示一个HTTP相应。由Downloader生成,由Spider处理

    • .urI Response对应的URL地址
    • .status HTTP状态码,默认是200
    • .headers Response对应的头部信息
    • .body Response对应的内容信息,字符串类型
    • .flags组标记
    • .request产生 Response类型对应的 Request对象
    • .copy复制该响应

    3,Item类
    Item对象表示一个从HTML页面中提取的信息内容。
    由 Spider生成,由 Item Pipeline处理。
    Item类似字典类型,可以按照字典类型操作。

    CSS Selector的基本使用

    <HTML>.css('a::attr(href)').extract()
    a为标签名称,href为标签属性

    相关文章

      网友评论

          本文标题:scrapy学习

          本文链接:https://www.haomeiwen.com/subject/fwyvxktx.html