从零开始实现scrapy爬取智联招聘的岗位信息-1

作者: 岁月淡如水 | 来源:发表于2018-07-28 08:59 被阅读0次

从零开始实现scrapy爬取智联招聘的岗位信息-1
从零开始实现scrapy爬取智联招聘的岗位信息-2
从零开始实现scrapy爬取智联招聘的岗位信息-3
爬虫0601：scrapy实战
爬虫爬取招聘网站
[CP_14] Python爬虫框架01：Scrapy框架创建项
爬虫实战（二）之 CrawlSpider 爬取新闻网
六. 项目实战：下载360图片
招聘网站信息收集
day3、爬取素材网图片-bs4使用-智联抓取信息-chrome

近期需要自己爬取数据，于是开始学习爬虫相关的知识，在工具使用方面，经过初步调研，决定使用anaconda+scrapy 作为主力工具，另外使用Chrome 浏览器方便分析网页数据。本系列教程，将从（1）anaconda、scrapy的安装配置；（2）scrapy基本命令操作；（3）爬取单个页面数据；（4）爬取多页面数据；四部分详细阐述如何从零基础开始，实现自己的爬虫。

（1）anaconda和scrapy 的安装配置

之所以选择anaconda是因为，anaconda的安装非常简单，和普通应用程序的安装完全一样，不需要额外进行环境变量的配置等等。另外，anaconda本身自带了很多有用的工具，也减少了安装负担，在anaconda下安装其他工具如scrapy，也相对容易，不出错。下面首先开始安装anaconda。

anaconda下载地址为anaconda下载地址，这里我们选择Python3.6版本的，各位根据自己的实际情况选择是下在32位还是64位。

唯一需要特别注意的就是安装过程中需要添加anaconda到系统环境变量中去，如下图所示。

安装完成后，在开始菜单栏会出现很多anaconda相关项，这里我们打开Anaconda Prompt，使用 conda list 命令可以查看已经自动安装的工具包；如果我们需要创建多个互补影响的环境的话，我们可以使用 conda create -n yourproject python=3.6 命令使用建立新环境，这里我就不创建了。

接下来我们安装scrapy包，在安装之前，我们在刚刚打开的Anaconda Prompt 中添加清华的仓库镜像，之所以这样做，是为了以后安装其他包能够速度快。其命令如下：

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

conda config --set show_channel_urls yes

添加完成后，我们安装scrapy包，有两种方法：方法一直接在刚刚打开的Anaconda Prompt 中使用 pip install scrapy 命令安装，稍等片刻即可安装完成；方法二是打开Anaconda Navigator ,然后点击左侧Environments，选择uninstall,然后找到对应的宝，然后apply一下就可以了。两种方法大家都可以试试。