一、安装
对于初学者来说,好不容易简单的学会了使用Python爬取数据,如今想更深入的玩爬虫,于是开始去学习最流行的爬虫框架-Scrapy,但是问题要来了,要学习必须要先安装,很多同学都望而怯步了,因为安装 Scrapy还挺麻烦的,特别是使用 Windows的同学来说,简直是要崩溃,好了,不扯了,接下来直接进入正题,以 wind7 安装 Scrapy为例;要想成功安装 Scrapy ,则必须要经过以下几个步骤:
1.anaconda https://www.anaconda.com/download/ (可选:这个库已经包含了所有基本库了,一般安装这个即可)
2.pywin32 http://sourceforge.net/projects/pywin32/files/ (推荐直接进入下载:https://github.com/mhammond/pywin32/releases)
3.lxml pip install lxml (xpath的解析库,这里虽然可以安装没问题,但是在使用etree模块的时候出现问,因此还是建议手动先到此网址下下载.whl文件:https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml,安装方法和第五步本地安装一样)
4.cryptography pip install cryptography (用于加密的 Python 库)
5.twisted pip install twisted (一般会在这一步挂彩)
6.scrapy pip install scrapy
以上是安装Scrapy毕竟的步骤,上面第一第二步直接下载对应版本的可执行文件然后像普通软件那样安装即可,第三第四步一般不会出现什么问题,但是第五步就如果使用 pip 进行安装则可能会如下错误:
因为这个错误,会导致最后一步无法安装 Scrapy,那么现在我们如何去解决呢?不要着急,首先我们先进入: https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载 相应版本 的文件:
下载好之后,打开命令窗口提示符执行命令: pip install D:\MySoftware\MyPython\Python3.6.4\twisted Twisted-17.9.0-cp36-cp36m-win_amd64.whl (下载好的twisted模块的whl文件路径)
万事具备,接下来我们在执行安装 Scrapy 命令即可:
到这里我们就大功告成了,那么我们如何测试是否安装成功?直接在命令窗口中输入:scrapy 出现如下版本即表示已经安装成功:
二、创建工程
既然环境已经安装好了,那么这时候同学们是不是迫不及待的想去练练手呢?好,那么我们现在就开搞,首先指定一个存放爬虫项目的路径,然后执行命令创建项目:scrapy startproject 项目名
执行完成之后在制定的目录会自动创建了爬虫项目,为了更加清晰的查看项目的结构,我们打开 PyCharm 进行关联:
点击“创建”按钮之后会有个提示,直接点击“确定”即可,项目结构效果如下:
简单认识下工程文件(具体的话不在这里介绍):
scrapy.cfg #工程文件
sohu_spider/ #工程目录
spiders/ #所有蜘蛛
items.py #项目
middlewares.py #中间件
pipelines.py #管线
settings.py #配置
三、爬取网站数据
既然工程已经创建,那么我们就以爬取 搜狐 网为例,右键spiders目录创建 my_sohu_spider.py 文件:
之所以用截图是因为比复制代码整洁,那么如何出现红色方框里面的html文件呢?我们必须要运行爬虫,使用命令指定到项目跟路径下然后执行命令: scrapy crawl sohu (注:sohu是代码中的蜘蛛名字)
最后我们想 简单爬取单张图片 和 使用选择器爬取 <div>标签中 <a>的文本及链接:
再使用命令执行,大功告成,其实也挺简单,哈哈哈。。。
案例代码链接:链接:https://pan.baidu.com/s/1MjZdw5wjAS3EQN4zZkAMQA 密码:ayvf
网友评论