美文网首页
python爬虫1--scrapy安装与命令的查看

python爬虫1--scrapy安装与命令的查看

作者: 牛小方 | 来源:发表于2020-01-14 17:36 被阅读0次

一、Windows安装scrapy框架

要安装scrapy框架首先要进入终端,可以通过win+r打开运行在输入cmd打开,也可以直接在开始上右键点击“命令提示符”

1、直接安装

最好先升级一下pip,输入pip install --upgrade pip,等待升级成功

再输入pip install scrapy安装scrapy

如果下载速度太慢导致总是超时失败,可以指定源安装

输入pip install -i https://pypi.douban.com/simple/ scrapy

2、通过安装包安装

如果直接安装一直不成功就只能通过安装包来安装了,由于安装包是whl格式,所以首先要安装wheel库,输入pip install wheel

安装完成后验证是否成功

又因为scrapy框架是基于Twisted的,所以还要先安装Twisted

下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/

搜索Twisted,根据自己的版本下载

下载完成后,进入Twisted包所在的路径,输入pip install xxxxxxx.whl(xxxxxxx.whl是你的Twisted包名)

安装好Twisted包就可以下载scrapy包了,下载地址和上面的相同,搜索 scrapy找到安装包

同样的,也要先进入scrapy包所在路径,输入pip install xxxxxxx.whl(xxxxxxx.whl是你的scrapy包名),等待安装完成


二、查看命令帮助及命令说明

安装完成后验证,可以输入scrapy version查看版本

scrapy有两种命令:全局命令、项目命令

输入scrapy或者scrapy -h查看当前可用命令

换句话说就是在项目目录以外只能使用全局命令,在项目目录内可以使用项目命令

如果想要查看各个命令的使用帮助可以输入scrapy <command> -h (这个很关键,一定要学会通过自带的帮助信息学习如何使用命令)

scrapy命令总结如下:

1、startproject

创建爬虫项目:scrapy startprojects <项目名字>

2、genspider

在项目中生成爬虫:scrapy genspider -t <模板名字> <爬虫名> <爬取的域名>

模板可以输入scrapy genspider -l查看,如果不指定模板,默认用的basic

3、crawl

启动项目下的爬虫:scrapy crawl <爬虫名字>

4、check

检查代码是否有错误:scrapy check

5、list

列出所有可用的爬虫:scrapy list

6、edit

在命令行下编辑爬虫(不建议运行):scrapy edit <爬虫名字>

7、fetch

下载并显示网页源代码:scrapy fetch <url>

还可以添加一些参数:

--nolog 不打印日志

--headers 打印响应头信息

--no-redirect 禁止重定向

8、view

下载网页到本地并用浏览器显示:scrapy view <url>

这个命令用于当网站通过ajax请求加载数据时,直接通过requests请求无法获取我们想要的数据,于是用view命令来进行判断

9、shell

进入命令行交互模式:scrapy shell <url>

10、settings

获取当前的配置信息:scrapy settings get=<SETTING>

11、runspider

启动爬虫文件:scrapy runspider <爬虫文件>

这里要和通过crawl启动爬虫进行区别---runspider是在未创建项目的情况下启动的一个编写在Python文件中的spider,所以这里一定是一个py文件,如:scrapy runspider myspider.py

12、bench

测试本地硬件的性能:scrapy bench

13、parse

处理并分析爬取数据,检验爬取结果:scrapy parse <url>

相关文章

网友评论

      本文标题:python爬虫1--scrapy安装与命令的查看

      本文链接:https://www.haomeiwen.com/subject/sqioactx.html