工欲善其事,必先利其器!Scrapy是一个功能非常强大的爬虫框架(Scrapy官网:http://scrapy-chs.readthedocs.io/zh_CN/0.24/index.html),然而要使用Scrapy写爬虫,首先就必须搭建一套环境,废话不多说,直接进入正题......
一、系统环境:
操作系统:Windows10
Python版本:2.7.12
Scrapy版本:1.4.0
二、安装步骤:
2.1、python官网下载python安装包,下载地址:
https://www.python.org/downloads/release/python-2712/
2.2、运行下载的MSI安装包
在选择安装组件的一步时,修改安装路径,勾上所有的组件,特别要注意选上pip和Add python.exe to Path,然后一路点“Next”即可完成安装
2.3、验证是否安装成功
cmd中运行python --version,出现python版本表明安装成功
![](https://img.haomeiwen.com/i1765294/9932e84b4267d051.png)
2.4、安装pip
点击https://pypi.python.org/pypi/pip下载pip-6.1.1.tar.gz (md5, pgp)
解压后进入文件夹,执行:
python setup.py install
安装python完成之后会自动安装pip,但是默认是8.1.1版本,需要进行升级
python -m pip install --upgrade pip
![](https://img.haomeiwen.com/i1765294/cb546010abbc8c4f.png)
2.5、安装lxml
lxml是一种使用 Python 编写的库,可以迅速、灵活地处理 XML。选择对应的Python版本安装。
安装命令:
pip install lxml
2.6、安装zope.interface
pip install zope.interface
![](https://img.haomeiwen.com/i1765294/1bd28414db657951.png)
2.7、安装Twisted
Twisted是用Python实现的基于事件驱动的网络引擎框架,安装命令:
pip install twisted
![](https://img.haomeiwen.com/i1765294/4c304ac646b2320c.png)
这一步可能会遇到下面的问题:
error: Microsoft Visual C++ 9.0 is required (Unable to find vcvarsall.bat). Get it from http://aka.ms/vcpython27
解决办法如下:
可以下载一个DirectX修复工具进行修复(需要开启增强模式,如果不会就度娘一下)
![](https://img.haomeiwen.com/i1765294/af100bd0d168e1b4.png)
2.8、安装pyOpenSSL
pip install pyopenssl
![](https://img.haomeiwen.com/i1765294/1706ed507413669d.png)
2.9、安装win32py
提供win32api,点击 http://sourceforge.net/projects/pywin32/files/pywin32/下载
pywin32-220.win-amd64-py2.7.exe,点击安装即可。
![](https://img.haomeiwen.com/i1765294/482c698ef7f3a448.png)
2.10、安装scrapy
pip install scrapy
![](https://img.haomeiwen.com/i1765294/efe9a4f6140096cc.png)
2.11、测试scrapy是否可用:
cmd输入scrapy 是否正常输出信息显示
![](https://img.haomeiwen.com/i1765294/d8215d79fa4d8414.png)
ok,Scrapy环境搭建完毕,接下来我们便可以开始使用Scrapy爬数据了...
网友评论