Scrapy常见指令

作者: 薛落花随泪绽放 | 来源:发表于2017-11-03 20:07 被阅读18次

    在cmd里输入scrapy。

    全局指令
    Available commands:
      bench         Run quick benchmark test   //可以在项目里执行。属于项目指令
      fetch         Fetch a URL using the Scrapy downloader   //直接获取网址的一个指令。可以直接获取某个网页
      genspider     Generate new spider using pre-defined templates   //主要用于创建一个爬虫文件。
      runspider     Run a self-contained spider (without creating a project)   //主要运行一个爬虫
      settings      Get settings values   //跟爬虫配置相关
      shell         Interactive scraping console   //进入一个交互式命令
      startproject  Create new project   //创建一个爬虫项目
      version       Print Scrapy version   //显示版本信息
      view          Open URL in browser, as seen by Scrapy   //打开一个URL
    
    

    创建一个简单项目

    首先打开cmd,进入要存放项目的文件夹

    d:
    cd +目录名  //项目存放的目录
    cd scrapy   //scrapy是你在d盘创建的目录。
    #scrapy startproject +项目名
    scrapy startproject cw 
    cd cw
    scrapy -h
    
    项目指令
     bench         Run quick benchmark test
      check         Check spider contracts  
      crawl         Run a spider  //运行某一个爬虫文件
      edit          Edit spider  
      fetch         Fetch a URL using the Scrapy downloader
      genspider     Generate new spider using pre-defined templates
      list          List available spiders
      parse         Parse URL (using its spider) and print the results
      runspider     Run a self-contained spider (without creating a project)
      settings      Get settings values
      shell         Interactive scraping console
      startproject  Create new project
      version       Print Scrapy version
      view          Open URL in browser, as seen by Scrapy
    
    scrapy fetch http://www.baidu.com  //获取一个网页
    

    在scrapy目录下新建一个爬虫文件。 //注意扩展名是py.然后用编辑器打开。

    from scrapy.spiders import Spider
    class Firstspider(Spider):
        name="First"
        allowed_domains=["baidu.com"]
        start_urls=["http://www.baidu.com"]
        def parse(self,response):
            pass
    

    在cmd里

    cd ..
    scrapy runspider xue.py
    cd cw
    scrapy settings --get BOT_NAME
    scrapy shell http://www.baidu.com
    exit()
    scrapy version
    scrapy view http://news.163.com //下载到本地然后在浏览器中打开
    scrapy bench //测试性能
    

    创建爬虫文件

    scrapy genspider -l //查看可用的模板
    D:\scrapy\cw>scrapy genspider -l
    Available templates:
      basic
      crawl
      csvfeed
      xmlfeed
    
    #scrapy genspider -t +模板名 +文件名 +域名 
    scrapy genspider -t basic xuehuai jianshu.com
    scrapy genspider -t basic xuehuai1 wxit.edu.cn
    

    check //检查爬虫是否合规。

    #scrapy check +文件名
    scrapy check xuehuai
    

    crawl //运行一个爬虫项目下的爬虫文件

    #scrapy crawl +文件名
    scrapy crawl xuehuai
    scrapy crawl xuehuai --nolog   //不显示日志信息
    

    list //查看当前爬虫项目下面有哪些可用的爬虫文件

    scrapy list
    

    parse //获取指定的url网址

    scrapy parse 网址名
    scrapy parse http://www.baidu.com
    scrapy parse xuehuai http://news.163.com
    scrapy parse -h
    scrapy parse --spider=xuehuai http://news.163.com
    
    

    相关文章

      网友评论

        本文标题:Scrapy常见指令

        本文链接:https://www.haomeiwen.com/subject/gemtmxtx.html