美文网首页Python
在Pycharm中调试scrapy爬虫的两种方法

在Pycharm中调试scrapy爬虫的两种方法

作者: Dayon | 来源:发表于2019-10-18 14:31 被阅读0次

    通常,运行scrapy爬虫的方式是在命令行输入scrapy crawl <spider_name>,调试的常用方式是在命令行输入scrapy shell <url_name>。
    总的来说,调试方法比较单一。其实,还有两种调试方法,可以在pycharm中实现调试。

    1.使用scrapy.cmdline的execute方法

    首先,在项目文件scrapy.cfg的同级建立main.py文件(注意,必须是同级建立),在其中键入如下代码:

    from scrapy.cmdline import execute
    import sys
    import os
    
    sys.path.append(os.path.dirname(os.path.abspath(__file__)))
    
    execute(['scrapy', 'crawl', 'spider_name'])  # 你需要将此处的spider_name替换为你自己的爬虫名称
    

    在其余爬虫文件中设置断点后,运行main.py,即可实现在pycharm中的调试。

    2.使用scrapy的CrawlerProcess方法

    在项目文件scrapy.cfg的同级建立main.py文件(注意,必须是同级建立),在其中键入如下代码:

    from scrapy.crawler import CrawlerProcess
    from scrapy.utils.project import get_project_settings
    
    if __name__ == '__main__':
        process = CrawlerProcess(get_project_settings())
        process.crawl('spider_name')    #  你需要将此处的spider_name替换为你自己的爬虫名称
        process.start()
    

    在其余爬虫文件中设置断点后,运行main.py,即可实现在pycharm中的调试。
    两种方式都很简单实用,值得掌握。

    相关文章

      网友评论

        本文标题:在Pycharm中调试scrapy爬虫的两种方法

        本文链接:https://www.haomeiwen.com/subject/dhbimctx.html