scrapy

作者: 恬恬i阿萌妹O_o | 来源:发表于2018-12-02 21:51 被阅读0次

    1.创建项目 scrapy startproject + 项目名称
    2.进入到spiders 文件夹下 创建爬虫文件 scrapy genspider + 爬虫文件名称 + 网站的域
    .创建完成之后打开pycharm 创建好的项目,选择虚拟环境

    注意:爬虫文件的名称不可以和项目的名称重名

    scrapt 项目的架构
    chinaz 项目文件夹
    spiders 存放所有的爬虫文件
    zzw.py 爬虫文件(解析response 响应,提取目标数据和url)
    items.py 编写要爬取的字段
    middiewares.py 中间件(爬虫中间件,下载中间件)
    piplines.py 数据管道(做数据持久化)
    settings.py 设置文件(设置请求头,下载延迟,是否遵循robot协议,等 ....)
    scrapy.cfg 配置文件(部署项目的时候会用到)

    运行 : 进入chainz/ 在进入 spiders 在执行scrapy crawl zzw

    使用框架可以更高的提升我们的执行效率
    1.引擎:负责各个模块的数据传递

    创建通用爬虫: scrapy crawl -t genspider + 爬虫名称 + 网站的域

    相关文章

      网友评论

          本文标题:scrapy

          本文链接:https://www.haomeiwen.com/subject/youhcqtx.html