美文网首页
爬虫起步,何其艰难...(编程环境搭建的心酸之路)

爬虫起步,何其艰难...(编程环境搭建的心酸之路)

作者: 小雨和小豪 | 来源:发表于2017-03-29 16:21 被阅读0次

    纠结很久,知道了python。装了版本2.7.后来了解了sublime,强大的编译器,但还是无从下手。整一周时间消耗过去了...可是我要编爬虫啊,再难也得继续。


    3月28  了解scrapy

    知乎到https://zhuanlan.zhihu.com/p/24699781。研究官网文档https://doc.scrapy.org/en/latest/intro/tutorial.html

    定义想要的数据-->编写提取数据的spider(定义的数据需要Xpath表达式或者正则表达式)-->运行

    一些名词:parse  cookie  session。虽然不大懂,先搭起环境来再说。

    安装scrapy 首先要有python环境,然后安装pip(防止版本出错,需要下载https://pip.pypa.io/en/latest/installing/#upgrading-pip

    保存成.py文件 运行 这里我失败了!尝试手动安装 失败了.... )


    3月29  继续尝试安装pip 继昨天显示没有setuptools包工具,发现一篇博客http://blog.csdn.net/xsj_blog/article/details/52037609

    (1)easy_install和pip都是用来下载安装Python一个公共资源库PyPI 的相关资源包的,pip是easy_install的改进版,提供更好的提示信息,删除package等功能。老版本的python中只有easy_install, 没有pip。

    (2)easy_install 打包和发布 Python 包

    (3)pip 是包管理

    所以正在装easy install工具。成功!!!继续装pip。成功!!!


    接下来以为可以顺利安装scrapy了,结果pip install scrapy还是出错。错误代码:Collecting scrapy

    无语....

    不放弃,访问了scrapy文档获知最好用anaconda安装scrapy,无奈校园网访问国外服务器下载速度巨慢,vpn之。半小时后终于安装上了。可是问题又来了,登陆用户文件夹在anaconda 2版本中不支持中文文件夹。随后又切换管理员账户更改用户文件夹为英文、修改注册表,注销重新登陆。安装成功!!!  小白依然在路上飞奔......(后悔本科学计算机多好 ) 接下来执行conda install -c conda-forge scrapy  期待顺利。

    如我所料,怎么可能顺利!!!!!国外镜像装完之后,据说不仅更新速度令人发指,包安装也到处都是问题...正确姿势应该是清华开源网站https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/下载镜像,并安装包插件。https://zhuanlan.zhihu.com/p/25198543话不多说,开始试水(天啊,国内教育网骨干节点上的下载速度也慢的要死...忍)

    3.30  不放弃的第三天,成功将anaconda2的镜像从官网更换成清华开源的版本,这里因为访问官网时自动获取的是anaconda 2,而不是3,所以清华开源里我选择了Anaconda2-4.3.1-Windows-x86_64.exe。接受了前面中文登陆用户文件夹的教训,安装过程顺利通关。

    接下来就是打开Anaconda Prompt运行conda install -c conda-forge scrapy指令还是出错。依旧报错:CondaHTTPError: HTTP None None for url <https://conda.anaconda.org/conda-forge/win-64/repodata.json>

    Elapsed: None

    An HTTP error occurred when trying to retrieve this URL.

    HTTP errors are often intermittent, and a simple retry will get you on your way.

    ConnectionError(ReadTimeoutError("HTTPSConnectionPool(host='conda.anaconda.org',port=443): Read timed out.",),)

    提示url,看来是资源访问路径问题,既然镜像是国内的那一定也应该从国内获取和升级各种包。不出所料https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/

    包管理也应切换成国内源。需要运行代码是:

    conda config --add channelshttps://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

    conda config --set show_channel_urls yes

    运行conda install numpy测试可行。

    于是激动又小心翼翼地敲上conda install -c conda-forge scrapy,还是提示url。这里并没有查看帮助,试了一下直接敲conda install scrapy(因为没仔细研究—c conda forge 含义,并不是很理解)。但成功获取package,无比激动地看着安装进程在跑。

    没错,此时的我已经热泪盈眶!!!真的太不容易了。

    来不及喜悦,小白继续跑在路上。

    相关文章

      网友评论

          本文标题:爬虫起步,何其艰难...(编程环境搭建的心酸之路)

          本文链接:https://www.haomeiwen.com/subject/yaegnttx.html