Python学完基本的东西有段时间了,从今天开始,进行实战开发。
实战参考书籍 图灵原创 崔庆才 《Python3 网络爬虫开发实战》
开此记录实战过程中遇到的问题及解决方案,顺序依照上述书记的章节目录顺序
开战!!
1.1 python3安装(Mac上默认的是python2.7,自己再装了个3.7.3,安装步骤简单不赘述了)
1.2.1 Requests 的安装
遇到的问题如下:
默认mac上已经安装了 python2.7 而我又安装了 python3,并主要使用 python3;
pip安装的包安装在了 python2.7
所以我使用pip无法将requests库安装到python3上
PS:这个问题解决方案详见 https://www.jianshu.com/p/180fdd35bac4
解决方案:
1 使用virtualenv 虚拟环境来处理这个问题,可参考https://blog.csdn.net/weixin_38264564/article/details/80024025
2 使用源码安装 git clone git://github.com/kennethreitz/requests.git 执行命令 cd requests 和 python3 setup.py install
方案一,后续的操作需要再虚拟环境下操作需要activate和deactivate,我个人嫌麻烦,没有采用。使用了源码安装
验证是否安装成功,如下,如报错即可
$ python3
> > import requests
1.2.2. Selenium 的安装
有了上面的问题,selenium我就直接选择了源码安装 地址
https://pypi.org/project/selenium/#files 下载类型为source的文件(后缀名为tar.gz)
cd 到 Selenium目录下 然后执行 python3 setup.py instal
验证是否安装成功,如下,如报错即可
$ python3
> > import selenium
1.2.3 ChromeDriver的安装
根据自己安装的chrome版本来选择驱动版本,对应关系以及下载地址参考
https://blog.csdn.net/BinGISer/article/details/88559532
找到对应版本后将可执行文件移动到指定目录下
sudo mv /Users/****/Desktop/chromedriver /usr/local/bin
配置环境变量
export PATH="$PATH:/usr/local/bin/chromedriver"
source ~./profile
查看配置是否ok执行 echo $PATH
检查chromedriver是否安装成功
命令行执行如下
python3
>>> from selenium import Webdriver
>>> web = Webdriver.Chrome()
>>> web.get("www.baidu.com")
如果chrome自己打开并进入了百度首页就万事大吉,如果打开又闪退,那就是chromedriver版本不对
1.2.4 GeckoDriver 的安装(自己没装火狐,这里就先略过)、
1.2.5 PhantomJS
原书中提到了无界面爬数据使用了phantomjs,但是最新版本的selenium已经不再支持phantomjs,并且phantomjs下载列表中的已经无法打开,就放弃这个了
替代方案(chrome & firefox 新版本都支持了无头模式)
>>>fromselenium.webdriver.chrome.options
>>>importOptionsoptions = Options()
>>>options.add_argument('-headless')#无头参数
>>>browser = webdriver.Chrome(chrome_options=options)
1.2.6 aiohttp 的安装
依然采用源码安装
地址:https://pypi.org/project/aiohttp/#files,方法如Requests源码安装一样
验证是否安装成功,如下,如报错即可
$ python3
> > import aiohttp
网友评论