Scrapy（1）

Scrapy（1）

作者: WeirdoSu | 来源:发表于2017-12-13 19:05 被阅读0次

scrapy爬取登录——人人网
scrapy笔记
Scrapy框架的使用
Python爬虫框架scrapy入门使用记录
Python爬虫-Scrapy框架之Spider
scrapy及scrapy-redis简介
Scrapy安装
scrapy + mongodb +redis 实现爬虫
Scrapy爬虫框架简单应用
scrapy 框架

认识Scrapy项目的目录结构：

首先，生成一个与爬虫项目名称同名的文件夹，该文件夹下拥有一个同名子文件夹（可以理解为项目核心目录）和一个scrapy.cfg文件；
该同名子文件夹下放置的是爬虫项目的核心代码，scrapy.cfg文件主要是爬虫项目的配置文件；
核心代码包括：一个spider文件夹，以及__init__.py、items.py、pipelines.py、settings.py等Python文件；
__init__.py为初始化文件，主要是写项目的初始化信息；
items.py文件为爬虫项目的数据容器文件，主要用来定义我们要获取的数据；
pipelines.py文件为爬虫项目的管道文件，主要用来对items里面定义的数据进行进一步的加工处理；
settings.py文件为爬虫项目的设置文件，主要为爬虫项目的一些设置信息；
spider文件夹下放置的是爬虫项目中的爬虫部分相关的文件：
spider/__init__.py文件为爬虫项目中爬虫部分的初始化文件，主要对spider进行初始化；

用Scrapy进行爬虫项目管理：

终端进入相应文件夹下后输入：scrapy startproject project_name 创建项目；
参数控制：见55%

常用工具命令：

分为全局命令和项目命令：全局命令不需要依靠Scrapy项目就可以在全局中执行，项目命令必须依靠项目；

全局命令：

scrapy -h会显示所有的全局命令:
fetch命令：用来显示爬虫爬取的过程，例如可以用scrapy fetch url显示出爬取对应网址的过程；如果在项目之外使用该命令会调用默认的爬虫来进行网页的爬取，项目内调用使用项目爬虫；参数：—headers控制显示对应的爬虫爬取网页时的头信息，--nolog不显示日志信息。。。。
runspider命令：实现不依托Scrapy项目，直接运行一个爬虫文件；
settings命令：查看Scrapy对应的配置信息；
shell命令：可以启动Scrapy的交互终端，经常在开发和调试的时候用到，可以实现在不启动Scrapy爬虫的情况下对网站响应进行调试，exit()退出交互终端；
startproject命令：创建项目；
version命令：显示Scrapy的版本信息；
view命令：实现下载某个网页并用浏览器查看的功能；

项目命令：

除去全局命令外还有：

bench命令：测试本地硬盘性能，会创建一个本地服务器并以最大速度爬行；
genspider命令：创建Scrapy爬虫文件，基于现有爬虫模板，用参数-1查看当前使用的模板；
check命令：实现对某个爬虫文件进行合同（contract）检查;
crawl命令：启动某个爬虫，“crawl 文件名”；
list命令：列出当前可使用的爬虫文件；
edit命令：直接打开对应编辑器对爬虫文件进行编辑；
parse命令：实现获取指定的URL网址，并使用对应的爬虫文件进行处理和分析；有很多参数：-h查看

相关文章

scrapy爬取登录——人人网
1.创建项目 D:\scrapy_1>scrapy startproject login1D:\scrapy_1>...
scrapy笔记
1 scrapy的运行原理参考：Learning Scrapy笔记（三）- Scrapy基础Scrapy爬虫入门...
Scrapy框架的使用
一 . scrapy的介绍 1. 什么是scrapy? (1) Scrapy是用纯Python实现...
Python爬虫框架scrapy入门使用记录
1、安装scrapy，pip install scrapy即可2、新建项目scrapy startproject ...
Python爬虫-Scrapy框架之Spider
1、Scrapy架构图模块介绍： 1）Scrapy Engine（引擎）：Scrapy框架的核心部分，负责...
scrapy及scrapy-redis简介
scrapy 及 scrapy-redis 简介演讲目录一、简介 1、scrapy简介 Scrapy是一个快速...
Scrapy安装
1.安装scrapy使用anaconda安装Scrapy特别方便。conda install scrapy ，输...
scrapy + mongodb +redis 实现爬虫
1. 安装scrapy pip install scrapy 安装scrapy-redis pip inst...
Scrapy爬虫框架简单应用
1、Scrapy基本命令 scrapy startproject xxx #创建工程scrapy genspid...
scrapy 框架
scrapy框架的流程图 1、scrapy框架主要为个块（1）Scrapy Engine(引擎)：负责Spide...

网友评论

本文标题：Scrapy（1）

本文链接：https://www.haomeiwen.com/subject/svpzixtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Scrapy（1）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！