Scrapy

作者: 先爔 | 来源:发表于2019-10-09 20:02 被阅读0次

    Scrapy简介


    Scrapy是一个健壮的网络框架,它可以从各种数据源中抓取数据。
    Scrapy能够识别残缺的HTML。
    Scrapy既不存储数据,也不索引数据。它只用于抽取数据。它对很多数据库也都有所支持。

    安装Scrapy


    因为我安装了Anaconda,所以直接在其下面安装

    conda install scrapy
    

    shell命令

    进入scrapy的URL调试控制台

    scrapy shell [--pdb] www.xxx.com
    

    --pdb: 启用交互式调试

    第一个Scrapy项目

    scrapy startproject properties
    

    编写爬虫

    创建一个名为basic的默认爬虫

    scrapy genspider basic 网址
    

    运行爬虫

    scrapy crawl 爬虫名
    scrapy parse --spider=爬虫名 网址
    

    保存文件

    scrapy crawl 爬虫名 -o xxx.json
    scrapy crawl 爬虫名 -o xxx.jl
    scrapy crawl 爬虫名 -o xxx.csv
    scrapy crawl 爬虫名 -o xxx.xml
    

    Item加载器

    ItemLoader
    

    相关文章

      网友评论

          本文标题:Scrapy

          本文链接:https://www.haomeiwen.com/subject/wvhkuctx.html