学习背景
由于最近项目需要爬虫获取数据,现学习python语言,可使用pthon原生爬虫和scrapy框架两种爬虫方式
本着学习的态度,该笔记主要记录使用python scrapy框架进行爬虫。
系统环境
本人当前系统为windows系统,并且已从Python官网上下载最新版本Python 3.7安装程序并安装。
安装完python3.7后,配置环境变量。
配置环境变量
在系统环境变量Path中,加入python的安装目录。
加入后,重启cmd模式,可以在cmd下输入python命令执行。
并且也在系统环境变量Path加入python下的scripts目录。
加入后,重启cmd模式,可以在cmd下输入pip命令。
配置PIP国内源
pip 是python的包管理工具。输入pip install 包名称,可自动下载python包并进行安装。
由于官网下载较慢,我们通过下述方法配置pip 国内镜像。
pip国内镜像修改方法:
pip国内镜像源:
清华:https://pypi.tuna.tsinghua.edu.cn/simple
阿里云:http://mirrors.aliyun.com/pypi/simple/
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
华中理工大学:http://pypi.hustunique.com/
山东理工大学:http://pypi.sdutlinux.org/
豆瓣:http://pypi.douban.com/simple/
windows环境:
在系统用户user目录下创建pip目录,并创建文件pip.ini.
Linux环境:
修改~/.pip/pip.conf文件,没有就创建一个。
文件内容如下:
[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple
[install]
trusted-host=pypi.tuna.tsinghua.edu.cn
这是采用其中国内源的一个,可任意修改国内源地址,并使用。
安装Scrapy
输入命令
pip install scrapy
进行安装scrapy
安装失败,提示Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools":
http://landinghub.visualstudio.com/visual-cpp-build-tools
由于scrpay框架内部使用的是twisted,从因特网搜索资源。此时提示visual c++ 模块未安装成功是因为twisted不能成功安装。
本地安装Twisted
需要安装Microsoft Visual C++ 14.0 ,但是这个东西安装起来很麻烦,而且安装上了也不一定准确,这个时候呢,我们一般就考虑第三方的python模块安装包 http://www.lfd.uci.edu/~gohlke/pythonlibs/。
然后搜索twisted,下载对应的版本,如当前系统安装的python 是3.7 64位版本,找Twisted‑18.7.0‑cp37‑cp37m‑win_amd64.whl,发现与当前版本对应,将文件下载到本地。下载时可能存在页面打不开问题,翻个墙就可以解决。如果有不能翻墙的,已共享到百度云,可下载。https://pan.baidu.com/s/1m3izvHDxlg1nHiXmSqjv6g
到下载目录中,pip install Twisted‑18.7.0‑cp37‑cp37m‑win_amd64.whl, 将twisted 安装成功。
之后再进行pip install scrapy。可以成功安装。
网友评论