美文网首页
scrapy爬虫

scrapy爬虫

作者: MkTom | 来源:发表于2018-09-20 17:18 被阅读0次
    image.png scrapy爬虫.png image.png

    运行爬虫 scrapy crawl +<爬虫名字>
    Scrapy的安装:pip install scrapy
    创建scrapy的项目:scrapy startproject myspider
    创建scrapy爬虫:在项目目录下执行 scrapy genspider itcast itcast.cn
    运行scrapy爬虫:在项目目录下执行 scrapy crawl itcast
    解析并获取scrapy爬虫中的数据:
    response.xpath() 方法的返回结果是一个类似list的类型,其中包含的是selector对象,操作和列表一样,但是有一些额外的方法
    extract() 返回一个包含有字符串的列表
    extract_first() 返回列表中的第一个字符串,列表为空没有返回None
    scrapy管道的基本使用:

    完善pipelines.py中的 process_item 函数
    在settings.py中设置开启pipeline
    ITEM_PIPELINES = {
    'myspider.pipelines.ItcastPipeline': 400
    }

    数据库pipeline的设置
    process_item(self,item,spider):实现对item数据的处理
    open_spider(self, spider): 在爬虫开启的时候仅执行一次
    close_spider(self, spider): 在爬虫关闭的时候仅执行一次

    相关文章

      网友评论

          本文标题:scrapy爬虫

          本文链接:https://www.haomeiwen.com/subject/wbennftx.html