近期需要自己爬取数据,于是开始学习爬虫相关的知识,在工具使用方面,经过初步调研,决定使用anaconda+scrapy 作为主力工具,另外使用Chrome 浏览器方便分析网页数据。本系列教程,将从(1)anaconda、scrapy的安装配置;(2)scrapy基本命令操作;(3)爬取单个页面数据;(4)爬取多页面数据;四部分详细阐述如何从零基础开始,实现自己的爬虫。
(1)anaconda和scrapy 的安装配置
之所以选择anaconda是因为,anaconda的安装非常简单,和普通应用程序的安装完全一样,不需要额外进行环境变量的配置等等。另外,anaconda本身自带了很多有用的工具,也减少了安装负担,在anaconda下安装其他工具如scrapy,也相对容易,不出错。下面首先开始安装anaconda。
anaconda下载地址为anaconda下载地址,这里我们选择Python3.6版本的,各位根据自己的实际情况选择是下在32位还是64位。
![](https://img.haomeiwen.com/i13344079/54088e45c8dd49fa.png)
唯一需要特别注意的就是安装过程中需要添加anaconda到系统环境变量中去,如下图所示。
![](https://img.haomeiwen.com/i13344079/4376cc4dc4ff0417.png)
安装完成后,在开始菜单栏会出现很多anaconda相关项,这里我们打开Anaconda Prompt,使用 conda list 命令可以查看已经自动安装的工具包;如果我们需要创建多个互补影响的环境的话,我们可以使用 conda create -n yourproject python=3.6 命令使用建立新环境,这里我就不创建了。
接下来我们安装scrapy包,在安装之前,我们在刚刚打开的Anaconda Prompt 中添加清华的仓库镜像,之所以这样做,是为了以后安装其他包能够速度快。其命令如下:
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --set show_channel_urls yes
添加完成后,我们安装scrapy包,有两种方法:方法一直接在刚刚打开的Anaconda Prompt 中 使用 pip install scrapy 命令安装,稍等片刻即可安装完成;方法二是打开Anaconda Navigator ,然后点击左侧Environments,选择uninstall,然后找到对应的宝,然后apply一下就可以了。两种方法大家都可以试试。
![](https://img.haomeiwen.com/i13344079/a3bac6e81ade6dad.png)
安装完后,可以在Anaconda Prompt 中输入scrapy 来查看是否安装成功,出现以下界面,表示安装成功。至此anaconda和scrapy全部安装完毕,接下来就要开始动手实践了。
![](https://img.haomeiwen.com/i13344079/3f73578230bf8d08.png)
本文参考了lucky_yang_的博客;另外本文代码地址:链接: https://pan.baidu.com/s/1jn1aloADaqoH2Ra5343SHQ 密码: 55bc
网友评论