美文网首页
Scrapy指令笔记

Scrapy指令笔记

作者: 挠叔 | 来源:发表于2018-03-06 20:58 被阅读8次

    fetch 可以直接获取一个网页
    genspider 创建爬虫文件
    runspider 运行一个爬虫
    settings 爬虫配置相关
    shell 进入交互页面
    startproject 创建一个爬虫项目

    创建一个爬虫项目
    scrapy startproject cw(文件名)
    cw 核心目录 scrapy.cfg 整个爬虫项目的配置
    spiders 所有的爬虫文件都会放在spiders文件夹里面
    init.py初始化文件 不用管
    iterms.py 定义一些爬去目标 (比如爬当当网 上的书内容还是价格还是图片 爬什么就是目标 全部写在items.py里)
    middlewares.py 中间键。 在爬去中间 中间都经历了什么。 (代理IP池 )
    pipelines.py 爬去后数据你要做什么是写入什么东西 还是干什么

    settings.py全局的
    item(爬虫目标)->spiders(爬虫文件)->pipelines(数据处理)

    sprapy指令
    全局指令 项目指令

    crawl 运行一个爬虫文件
    edit 编辑一个爬虫文件
    list 看一下当前爬虫项目下的爬虫文件

    scrapy fetch http://www.baidu.com 获取百度

    不创建爬虫项目单独 运行爬虫文件

    scrapy shell http://www.baidu.com 进入python》〉》模式
    exit() 退出

    scrapy view http://news.163.com 将数据下载到本地并且在浏览器中打开

    scrapy check +文件名 检查爬虫是否可行

    scrapy crawl 文件 —nolog 运行爬虫并不打印日志

    scrapy list 当前有可运行的爬虫

    相关文章

      网友评论

          本文标题:Scrapy指令笔记

          本文链接:https://www.haomeiwen.com/subject/iyorfftx.html