刚接触爬虫,用的是自带的urllib.request抓取网页,今天重看南大的python玩转数据MOOC,了解到更为强大的requests第三方库,几乎取代了urllib.request,适用于中小型爬虫,大型就要学习scrapy框架了,对这个我现在也是一无所知。
现在欲跟着做这个爬虫项目练手:Python 爬虫:把廖雪峰教程转换成 PDF 电子书。需要用到requests,无奈通过pip装了半天,到GitHub找源码下载,都因为被墙,无果。
最终装了win版git,将GitHub源码clone到本地,成功!再打开下载下来的requests文件夹,里面赫然躺着一个setup.py ,在该目录打开cmd,输入‘python setup.py install’安装requests库。
写个调用试试有没有安装成功:
又报错(ㄒoㄒ)
ModuleNotFoundError然后就开始了连番pip的道路,缺少urllib3,那就‘pip install urllib3’,谢天谢地这次没被墙(虽然仍然有Error信息,但还是装成功了)
运行又报错缺少chardet,啥玩意,见都没见过,接着‘pip install chardet’
再运行又报错缺少certifi,接着‘pip install certifi’
再运行又报错缺少idna,接着‘pip install idna’
再次运行,没有错了,显示'200',r.status正确。
终于完事了,不容易啊!(˘•灬•˘)
对于一个初学者,自学者来说,由于从小接触的就是Windows,对于Windows安装EXE程序的机制很熟悉,但自知道开源社区以来,以及网上各种我从来没见过得那些开发上的新鲜又陌生的玩意儿,有时候觉得它们真不友好,一想起类Unix系统的terminal以及那些令人头疼的东西,就常怀疑自己是不是不适合这一行。 ̄︿ ̄
网友评论