美文网首页
scrapy 的使用思路

scrapy 的使用思路

作者: 骑行怪状 | 来源:发表于2018-09-02 20:40 被阅读8次
    1、创建 scrapy 项目 scrapy startproject filedName
    -w753 -w523

    明确目标

    -w793
    2、scrapy genspider filedName itcase.cn(爬取域范围)
    -w758
    3、爬取 scrapy crawl [crawl name] -o file

    爬虫命令导出文件,支持四种导出文件方式, Json,csv,xml,json lines

    -w751 WX20180828-215138 -w822

    爬虫出现乱码可以使用代码解决

    -w803

    yield 作用: 返回数据,函数变为生成器,一直获取值,值不会重新执行,有 Return 一样的作用。在上次执行的地方继续执行。返回给管道,返回给管道后,继续进行到 for 循环里面。避免存放到空列表中占用较大内存。

    错误提示处理:

    TypeError: write() argument must be str, not bytes

    之前文件打开的语句是:

    filehandle = open(WAV_FILE, 'w')
    然后使用二进制方式打开就没有这个问题:

    filehandle = open(WAV_FILE, 'wb+')
    产生问题的原因是因为存储方式默认是二进制方式。


    爬虫的一般步骤

    -w604

    469.jpg)

    相关文章

      网友评论

          本文标题:scrapy 的使用思路

          本文链接:https://www.haomeiwen.com/subject/qmxvwftx.html