爬虫起步，何其艰难...（编程环境搭建的心酸之路）

作者: 小雨和小豪 | 来源:发表于2017-03-29 16:21 被阅读0次

爬虫起步，何其艰难...（编程环境搭建的心酸之路）
Python基础
Python 入门
丰碑之路：何其艰难，何其快哉！
何其艰难
[学客巴巴精品教程]python 基础课程专题推荐xuekeba
Python爬虫之Scrapy框架入门1
java起步-环境搭建
莫让闲愁成余殃
快速学习 | python编程：从入门到实践 | Windows

纠结很久，知道了python。装了版本2.7.后来了解了sublime，强大的编译器，但还是无从下手。整一周时间消耗过去了...可是我要编爬虫啊，再难也得继续。

3月28 了解scrapy

知乎到https://zhuanlan.zhihu.com/p/24699781。研究官网文档https://doc.scrapy.org/en/latest/intro/tutorial.html。

定义想要的数据-->编写提取数据的spider（定义的数据需要Xpath表达式或者正则表达式）-->运行

一些名词：parse cookie session。虽然不大懂，先搭起环境来再说。

安装scrapy 首先要有python环境，然后安装pip（防止版本出错，需要下载https://pip.pypa.io/en/latest/installing/#upgrading-pip

保存成.py文件运行这里我失败了！尝试手动安装失败了.... ）

3月29 继续尝试安装pip 继昨天显示没有setuptools包工具，发现一篇博客http://blog.csdn.net/xsj_blog/article/details/52037609

(1)easy_install和pip都是用来下载安装Python一个公共资源库PyPI 的相关资源包的，pip是easy_install的改进版，提供更好的提示信息，删除package等功能。老版本的python中只有easy_install，没有pip。

(2)easy_install 打包和发布 Python 包

(3)pip 是包管理

所以正在装easy install工具。成功！！！继续装pip。成功！！！

接下来以为可以顺利安装scrapy了，结果pip install scrapy还是出错。错误代码：Collecting scrapy

无语....

不放弃，访问了scrapy文档获知最好用anaconda安装scrapy，无奈校园网访问国外服务器下载速度巨慢，vpn之。半小时后终于安装上了。可是问题又来了，登陆用户文件夹在anaconda 2版本中不支持中文文件夹。随后又切换管理员账户更改用户文件夹为英文、修改注册表，注销重新登陆。安装成功！！！小白依然在路上飞奔......（后悔本科学计算机多好）接下来执行conda install -c conda-forge scrapy 期待顺利。

如我所料，怎么可能顺利！！！！！国外镜像装完之后，据说不仅更新速度令人发指，包安装也到处都是问题...正确姿势应该是清华开源网站https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/下载镜像，并安装包插件。https://zhuanlan.zhihu.com/p/25198543话不多说，开始试水（天啊，国内教育网骨干节点上的下载速度也慢的要死...忍）

3.30 不放弃的第三天，成功将anaconda2的镜像从官网更换成清华开源的版本，这里因为访问官网时自动获取的是anaconda 2,而不是3，所以清华开源里我选择了Anaconda2-4.3.1-Windows-x86_64.exe。接受了前面中文登陆用户文件夹的教训，安装过程顺利通关。

接下来就是打开Anaconda Prompt运行conda install -c conda-forge scrapy指令还是出错。依旧报错：CondaHTTPError: HTTP None None for url <https://conda.anaconda.org/conda-forge/win-64/repodata.json>

Elapsed: None

An HTTP error occurred when trying to retrieve this URL.

HTTP errors are often intermittent, and a simple retry will get you on your way.

ConnectionError(ReadTimeoutError("HTTPSConnectionPool(host='conda.anaconda.org',port=443): Read timed out.",),)

提示url，看来是资源访问路径问题，既然镜像是国内的那一定也应该从国内获取和升级各种包。不出所料https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/

包管理也应切换成国内源。需要运行代码是：

conda config --add channelshttps://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

conda config --set show_channel_urls yes

运行conda install numpy测试可行。

于是激动又小心翼翼地敲上conda install -c conda-forge scrapy，还是提示url。这里并没有查看帮助，试了一下直接敲conda install scrapy（因为没仔细研究—c conda forge 含义，并不是很理解）。但成功获取package，无比激动地看着安装进程在跑。