美文网首页
PyCharm+ENV+Scrapy

PyCharm+ENV+Scrapy

作者: Passon_Fang | 来源:发表于2019-01-15 10:23 被阅读12次

    记录使用 PyCharm 创建 Scrapy 项目过程。

    使用 PyCharm 创建一个干净的 Python 工程

    使用 env 环境

    Screen Shot 2019-01-15 at 9.55.59 AM.png

    安装 Scrapy

    打开 PyCharm 设置,安装 Scrapy。

    Screen Shot 2019-01-15 at 9.41.06 AM.png

    创建 Scrapy 工程

    打开 PyCharm 命令行工具

    # 后退一步,减少目录层级
    cd  ..
    
    # [Demo2] 必须和工程文件名相同
    scrapy startproject Demo2
    
    cd Demo2
    
    # 使用模版创建一个爬虫
    scrapy genspider example example.com
    

    配置运行

    创建 start_scrapy.py

    from scrapy import cmdline
    cmdline.execute('scrapy crawl example'.split())
    
    20190115102042.png

    测试

    修改 Demo2/spiders/example.py:

    # -*- coding: utf-8 -*-
    import scrapy
    
    class ExampleSpider(scrapy.Spider):
        name = 'example'
        allowed_domains = ['baidu.com']
        start_urls = ['http://baidu.com/']
    
        def parse(self, response):
            print(response.body)
    

    爬 baidu.com 还需要修改设置 settings.py ROBOTSTXT_OBEY = False

    运行后:

    20190115102211.png

    其他问题

    Forbidden by robots.txt

    修改 settings.py:

    # Obey robots.txt rules
    ROBOTSTXT_OBEY = False
    

    参考:https://www.jianshu.com/p/eda047ac5c89

    相关文章

      网友评论

          本文标题:PyCharm+ENV+Scrapy

          本文链接:https://www.haomeiwen.com/subject/assedqtx.html