《Python网络爬虫》1.5 Requests库使用实例

作者: 一页编程 | 来源:发表于2017-04-06 11:01 被阅读0次

《Python网络爬虫》1.5 Requests库使用实例
[Python]从Web解析到网络空间（一些第三方库的简要介绍）
requests库核心API源码分析
2019-01-01
python3 爬虫学习python爬虫库-requests使用
学习笔记 2018-10-21
Requests库网络爬虫实例
Requests库基本使用
python3 爬虫学习之html标签
python 网络爬虫之requests库和Re正则表达式

下面以几个例子来熟悉一下Requests库的使用，至于说怎么能够从返回的信息中解析返回的内容，那是我们后面将要讲的内容。

爬取京东商品页面

这里面我们选取的是华为的一款手机，看下面代码：

import requests
url = "https://item.jd.com/3888278.html"
try:
    r = requests.get(url)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")

上述代码可以正常返回HTML数据，比较简单，没有任何问题。

百度搜索关键词提交

百度搜索，大家都知道，有没有可能用程序自动的向这个搜索引擎提交个关键词，并且获得它的搜索结果呢？
我们在百度随便搜索一个关键词，然后查看URL，可以很容易的得到百度搜索的接口：

http://www.baidu.com /s?wd= keyword

只要我们替换keyword就可以向搜索引擎提交关键词了。下面我们用requests库来实现这个代码，以搜索”Python“关键词为例。

import requests
keyword = "python"
url = "https://www.baidu.com/s"
try:
    kv = {'wd': keyword}
    r = requests.get(url, params = kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")

其他搜索引擎和百度的搜索方法很类似，大家可以尝试一下。

网络图片的爬取和存储

首先，我们看一下网络上图片链接的格式。网络上图片链接基本都是这样一个格式：

http://www.example.com/picture.jpg

比如我们随便在网上找到一个图片，右键点击属性，就可以看到图片的真实地址：http://image.nationalgeographic.com.cn/2017/0403/20170403115136772.jpg

20170403115136772.jpg

我们如何通过图片URL，把它保存到本地呢？
我们知道返回的图片信息是一个二进制格式文件，也就是Response对象的content属性，我们把二进制形式写入到文件就可以了，下面看代码：

import requests
path = "D:/picture.jpg"
url = "http://image.nationalgeographic.com.cn/2017/0403/20170403115136772.jpg"
r = requests.get(url)
with open(path, 'wb') as f:
    f.write(r.content)

通过这样的方式，我们就把网上的图片保存到了D盘，文件名为picture.jpg。
这段代码虽然可以实现我们的想法，但是有很多问题，比如没有异常处理、文件没有关闭、不能用原始文件名保存图片等，下面我们给出优化后的代码：

import requests
import os
url = "http://image.nationalgeographic.com.cn/2017/0403/20170403115136772.jpg"
root = "D://pics//"
path = root + url.split('/')[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r = requests.get(url)
        with open(path, 'wb') as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else :
        print("文件已存在")
except:
    print("爬取失败")

事实上，除了图片排序之外，网上有很多的资源，都是类似的url格式，比如说网上的一个视频，比如说网上的一个音乐，比如说网上的一个动画等等，我们可以用这个代码去修改，能够获取网络上得很多的不同的资源。

网友评论

本文标题：《Python网络爬虫》1.5 Requests库使用实例

本文链接：https://www.haomeiwen.com/subject/nppfattx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

《Python网络爬虫》1.5 Requests库使用实例

爬取京东商品页面

百度搜索关键词提交

网络图片的爬取和存储

相关文章