美文网首页
scrapy爬虫

scrapy爬虫

作者: Color丶瞎 | 来源:发表于2019-01-22 22:01 被阅读0次


    windows下安装需要  pypiwin32       

    ```

    创建项目和爬虫

    项目:scrapy startproject xxx

    爬虫:进入到项目所在路径,scrapy genspider xxx_name  xxx_域名    

    注: 项目名和爬虫名 不能相同

    scrapy startproject xxx
    cd xxx
    scrapy genspider xxx_1 "yyy.com"

    CrawlSpider:

    scrapy genspider -t crawl xxx_1 "yyy.com"

    ```

    ```

    items.py  存放爬虫爬取下来数据的模型

    middlewares.py   存放各种中间件的文件

    pipelines.py   将items的模型存储到本地磁盘中

    settings.py    爬虫配置信息

    scrapy.cfg  项目的配置文件

    spiders包 以后所有的爬虫  存放的路径

    ```

    settings.py打开

    ```

    ROBOTSTXT_OBEY =False

    DOWNLOAD_DELAY =1

    DEFAULT_REQUEST_HEADERS   

    ITEM_PIPELINES  # pipelines

    ```

    再在与scrapy.cfg同目录下  创建一个 程序运行的run_pro.py:

    from scrapyimport cmdline

    cmdline.execute("scrapy crawl 项目名".split())

    # cmdline.execute(["scrapy","crawl", "项目名"])

    ```

    相关文章

      网友评论

          本文标题:scrapy爬虫

          本文链接:https://www.haomeiwen.com/subject/ufehvftx.html