美文网首页
scrapy 食用注意指南

scrapy 食用注意指南

作者: Dash_chan | 来源:发表于2018-06-10 22:12 被阅读6次
    1. 使用 'scrapy genspider project domain' 来生成 spider 文件
    2. 运行 scrapy 报错:
    ImportError:
    DLL load failed: 找不到指定的模块。
    

    解决:

    拷贝 C:\Python26\Lib\site-packages\pywin32_system32\ 这个文件夹里的文件,至 C:\Windows\System32

    3. 调试请使用 pycharm,通过以下方式用 pycharm 运行 scrapy:

    在 scrapy.cfg 这一级目录下新建 endpoint.py 文件,内容:

    from scrapy import cmdline
    cmdline.execute(['scrapy', 'crawl', 'cnblogSpider(这个是你 spide r的名字)'])
    

    这里多说一句,运行的时候需要用 spider 的名字来运行。这个名字是在

    class CnblogspiderSpider(scrapy.Spider):
        name = 'cnblogSpider'
        allowed_domains = ['cnblogs.com']
        start_urls = [
            'http://www.cnblogs.com/fnng/default.aspx?page=1'
        ]
    

    这个地方的 name 指定的。

    4. 可以将数据已指定格式输出文件。支持以下几种格式:

    xml
    csv
    json
    jsonlines
    jl
    pickle
    marshal

    运行时请带上参数指定输出格式:

    scrapy crawl cnblogs_blogs –nolog -o cnblogs_blogs.json -t json
    

    -o 后面指定了输出文件名,-t 后面指定了输出格式。

    其他:待更新......

    参考来自 鱼塘的鱼

    相关文章

      网友评论

          本文标题:scrapy 食用注意指南

          本文链接:https://www.haomeiwen.com/subject/dgvqeftx.html