欢迎关注公众号【哈希大数据】
前言
首先简单介绍Python网络爬虫用到哪些软件以及其如何配置
如果只做爬虫采用如下方式就OK啦:
1.建议大家使用Python3最新版本,可直接到官网下载安装。
2.编译工具建议大家用pycharm。Python和pycharm的详细安装步骤可参考:http://blog.csdn.net/qq_29883591/article/details/52664478(谢谢陌上行走的分享)
但如果后面还要做数据分析等更进一步的工作,建议大家直接配置anaconda和pycharm,anaconda已经集成了Python和非常多科学计算需要的包,所以不用再安装Python。安装步骤可参考:
http://blog.csdn.net/qq_36790747/article/details/63257244(感谢Theigrams的分享)在完成以上配置后,下面正式进入Requests库的学习
Requests库的安装与测试
Windows平台:首先介绍一种简单的安装包的方法,打开cmd,执行pip install requests 命令,如下图:
image image此外如果第一种方法出现如timeout等问题,我们还可以采用手动方法安装,步骤如下:
1、 登陆该网站(https://www.lfd.uci.edu/~gohlke/pythonlibs/)下载你所需要的第三包的whl文件(用Ctrl+F命令搜索你想安装的第三方包),建议存储在Python安装目录中的\Lib\site-packages目录下。
2、 下载完成后打开命令行,输入pip install 文件绝对路径 ,然后点击回车就OK啦
安装完成后,新建一个存放爬虫程序的文件夹,我们打开pycharm,如下图所示打开刚才所建文件夹,然后如下图所示,在文件夹中新建一个Python文件。
image
image
下面首先测试requests库是否安装成功。
在文件中输入:
import requests
r=requests.get("http://www.baidu.com")
print(r.status_code)print(r.text)
对于入门的小白来说,希望大家能够养成自己手动码代码的习惯不要直接复制粘贴。
点击下图中的绿色按钮进行执行,得到结果如下图所示,表明已经可以正常获取百度的首页内容。
Requests库的主要方法介绍
对应于request的6种请求,Requests库对应给出了6种方法。
image以上请求的返回结果就是Response(响应),如r 以上请求的返回结果就是Response(响应),如r=requests.get("http://www.baidu.com"),r便是响应,它包含响应状态:r.status_code,响应头:r.headers和响应体:r.text或r.content或r.json(),分别代表响应内容的字符串格式,二进制格式和json格式。此外它还包含r.encoding:从HTTP header中获得的响应内容编码方式同时程序也是利用该格式对获取到的内容进行解码的,r.apparent_encoding:从内容中分析出的响应内容编码方式。
异常情况处理
在第一部分最后的测试中,我们可以看到返回的状态码是200,表明响应成功,但返回的内容存在乱码:
image说明解析的解码方式不对。对此我们可以采用r.encoding = r.apparent_encoding 来解决。
image此外在爬取过程中会存在很多种异常情况,为了使我们的代码更健壮,做好异常处理很重要。
Requests库主要有以下异常:
image该表引自嵩天老师Python网络爬虫与信息提取
我们还要注意,只有当状态码为200时,我们才可能获取到想要的内容,为什么是可能呢这里留个悬念咱们之后再讲。所以我们开始需要对状态码做if判断,但Python提供了raise_for_status()方法,使用该方法会自动判断状态码是否等于200,不需要if判断。
Python中做异常处理很方便,可使用try-except语句,以下为简单的try...except...else的语法:
try:<语句>#运行别的代码except<name1>:<语句>#如果在try部份引发了'name1'异常,执行该部分语句except<name2>,<数据>:<语句>#如果引发了'name2'异常,获得附加的数据,执行该部分语句else:<语句>#如果没有异常发生执行该部分语句
如果不知道具体会出现什么异常时,可以不写异常的名字,Python会自动帮你捕捉发生的异常,但这样会比较慢,所以如果知道会出现的异常,请写到程序中。
健壮的代码实例
一个较为健壮的利用Requests库获取网页内容的代码为:
import requests
url = "http://www.baidu.com"
try:
r = requests.get(url) r.raise_for_status()
r.encoding=r.apparent_encoding # 如果出现HTML出现乱码再加入该语句
print(r.text)
except Exception as e:
print("爬取失败,错误为:" + e)
小结
-
简单介绍了Python、anaconda、pycharm的安装与配置
-
介绍两种Python安装第三方包的方法,pip install <包名> 以及手动安装
-
简单介绍Requests库中6种请求方法
-
如何处理爬取过程的异常情况
-
给出了一个简单的抓取网页的样例程序
本次分享到此结束,下次分享将对正则表达式进行较为详细的介绍。
网友评论