美文网首页
Scrapy(1)

Scrapy(1)

作者: WeirdoSu | 来源:发表于2017-12-13 19:05 被阅读0次

认识Scrapy项目的目录结构:

  • 首先,生成一个与爬虫项目名称同名的文件夹,该文件夹下拥有一个同名子文件夹(可以理解为项目核心目录)和一个scrapy.cfg文件;
  • 该同名子文件夹下放置的是爬虫项目的核心代码,scrapy.cfg文件主要是爬虫项目的配置文件;
  • 核心代码包括:一个spider文件夹,以及__init__.pyitems.pypipelines.pysettings.py等Python文件;
  • __init__.py为初始化文件,主要是写项目的初始化信息;
  • items.py文件为爬虫项目的数据容器文件,主要用来定义我们要获取的数据;
  • pipelines.py文件为爬虫项目的管道文件,主要用来对items里面定义的数据进行进一步的加工处理;
  • settings.py文件为爬虫项目的设置文件,主要为爬虫项目的一些设置信息;
  • spider文件夹下放置的是爬虫项目中的爬虫部分相关的文件:
    spider/__init__.py文件为爬虫项目中爬虫部分的初始化文件,主要对spider进行初始化;

用Scrapy进行爬虫项目管理:

  • 终端进入相应文件夹下后输入:scrapy startproject project_name 创建项目;
  • 参数控制:见55%

常用工具命令:

分为全局命令和项目命令:全局命令不需要依靠Scrapy项目就可以在全局中执行,项目命令必须依靠项目;

全局命令:

  • scrapy -h会显示所有的全局命令:
  • fetch命令:用来显示爬虫爬取的过程,例如可以用scrapy fetch url显示出爬取对应网址的过程;如果在项目之外使用该命令会调用默认的爬虫来进行网页的爬取,项目内调用使用项目爬虫;参数:—headers控制显示对应的爬虫爬取网页时的头信息,--nolog不显示日志信息。。。。
  • runspider命令:实现不依托Scrapy项目,直接运行一个爬虫文件;
  • settings命令:查看Scrapy对应的配置信息;
  • shell命令:可以启动Scrapy的交互终端,经常在开发和调试的时候用到,可以实现在不启动Scrapy爬虫的情况下对网站响应进行调试,exit()退出交互终端;
  • startproject命令:创建项目;
  • version命令:显示Scrapy的版本信息;
  • view命令:实现下载某个网页并用浏览器查看的功能;

项目命令:

除去全局命令外还有:

  • bench命令:测试本地硬盘性能,会创建一个本地服务器并以最大速度爬行;
  • genspider命令:创建Scrapy爬虫文件,基于现有爬虫模板,用参数-1查看当前使用的模板;
  • check命令:实现对某个爬虫文件进行合同(contract)检查;
  • crawl命令:启动某个爬虫,“crawl 文件名”;
  • list命令:列出当前可使用的爬虫文件;
  • edit命令:直接打开对应编辑器对爬虫文件进行编辑;
  • parse命令:实现获取指定的URL网址,并使用对应的爬虫文件进行处理和分析;有很多参数:-h查看

相关文章

网友评论

      本文标题:Scrapy(1)

      本文链接:https://www.haomeiwen.com/subject/svpzixtx.html