一、Windows安装scrapy框架
要安装scrapy框架首先要进入终端,可以通过win+r打开运行在输入cmd打开,也可以直接在开始上右键点击“命令提示符”
1、直接安装
最好先升级一下pip,输入pip install --upgrade pip,等待升级成功
再输入pip install scrapy安装scrapy
如果下载速度太慢导致总是超时失败,可以指定源安装
输入pip install -i https://pypi.douban.com/simple/ scrapy
2、通过安装包安装
如果直接安装一直不成功就只能通过安装包来安装了,由于安装包是whl格式,所以首先要安装wheel库,输入pip install wheel
安装完成后验证是否成功
又因为scrapy框架是基于Twisted的,所以还要先安装Twisted
下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/
搜索Twisted,根据自己的版本下载

下载完成后,进入Twisted包所在的路径,输入pip install xxxxxxx.whl(xxxxxxx.whl是你的Twisted包名)
安装好Twisted包就可以下载scrapy包了,下载地址和上面的相同,搜索 scrapy找到安装包

同样的,也要先进入scrapy包所在路径,输入pip install xxxxxxx.whl(xxxxxxx.whl是你的scrapy包名),等待安装完成
二、查看命令帮助及命令说明
安装完成后验证,可以输入scrapy version查看版本

scrapy有两种命令:全局命令、项目命令
输入scrapy或者scrapy -h查看当前可用命令
换句话说就是在项目目录以外只能使用全局命令,在项目目录内可以使用项目命令


如果想要查看各个命令的使用帮助可以输入scrapy <command> -h (这个很关键,一定要学会通过自带的帮助信息学习如何使用命令)

scrapy命令总结如下:
1、startproject
创建爬虫项目:scrapy startprojects <项目名字>
2、genspider
在项目中生成爬虫:scrapy genspider -t <模板名字> <爬虫名> <爬取的域名>
模板可以输入scrapy genspider -l查看,如果不指定模板,默认用的basic

3、crawl
启动项目下的爬虫:scrapy crawl <爬虫名字>
4、check
检查代码是否有错误:scrapy check
5、list
列出所有可用的爬虫:scrapy list
6、edit
在命令行下编辑爬虫(不建议运行):scrapy edit <爬虫名字>
7、fetch
下载并显示网页源代码:scrapy fetch <url>
还可以添加一些参数:
--nolog 不打印日志
--headers 打印响应头信息
--no-redirect 禁止重定向
8、view
下载网页到本地并用浏览器显示:scrapy view <url>
这个命令用于当网站通过ajax请求加载数据时,直接通过requests请求无法获取我们想要的数据,于是用view命令来进行判断
9、shell
进入命令行交互模式:scrapy shell <url>
10、settings
获取当前的配置信息:scrapy settings get=<SETTING>
11、runspider
启动爬虫文件:scrapy runspider <爬虫文件>
这里要和通过crawl启动爬虫进行区别---runspider是在未创建项目的情况下启动的一个编写在Python文件中的spider,所以这里一定是一个py文件,如:scrapy runspider myspider.py
12、bench
测试本地硬件的性能:scrapy bench
13、parse
处理并分析爬取数据,检验爬取结果:scrapy parse <url>
网友评论