《Python网络爬虫》1.5 Requests库使用实例

作者: 一页编程 | 来源:发表于2017-04-06 11:01 被阅读0次

By 一页编程


下面以几个例子来熟悉一下Requests库的使用,至于说怎么能够从返回的信息中解析返回的内容,那是我们后面将要讲的内容。

爬取京东商品页面

这里面我们选取的是华为的一款手机,看下面代码:

import requests
url = "https://item.jd.com/3888278.html"
try:
    r = requests.get(url)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")

上述代码可以正常返回HTML数据,比较简单,没有任何问题。

百度搜索关键词提交

百度搜索,大家都知道,有没有可能用程序自动的向这个搜索引擎提交个关键词,并且获得它的搜索结果呢?
我们在百度随便搜索一个关键词,然后查看URL,可以很容易的得到百度搜索的接口:

http://www.baidu.com /s?wd= keyword

只要我们替换keyword就可以向搜索引擎提交关键词了。下面我们用requests库来实现这个代码,以搜索”Python“关键词为例。

import requests
keyword = "python"
url = "https://www.baidu.com/s"
try:
    kv = {'wd': keyword}
    r = requests.get(url, params = kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")

其他搜索引擎和百度的搜索方法很类似,大家可以尝试一下。

网络图片的爬取和存储

首先,我们看一下网络上图片链接的格式。网络上图片链接基本都是这样一个格式:

http://www.example.com/picture.jpg

比如我们随便在网上找到一个图片,右键点击属性,就可以看到图片的真实地址:http://image.nationalgeographic.com.cn/2017/0403/20170403115136772.jpg

20170403115136772.jpg

我们如何通过图片URL,把它保存到本地呢?
我们知道返回的图片信息是一个二进制格式文件,也就是Response对象的content属性,我们把二进制形式写入到文件就可以了,下面看代码:

import requests
path = "D:/picture.jpg"
url = "http://image.nationalgeographic.com.cn/2017/0403/20170403115136772.jpg"
r = requests.get(url)
with open(path, 'wb') as f:
    f.write(r.content)

通过这样的方式,我们就把网上的图片保存到了D盘,文件名为picture.jpg
这段代码虽然可以实现我们的想法,但是有很多问题,比如没有异常处理、文件没有关闭、不能用原始文件名保存图片等,下面我们给出优化后的代码:

import requests
import os
url = "http://image.nationalgeographic.com.cn/2017/0403/20170403115136772.jpg"
root = "D://pics//"
path = root + url.split('/')[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r = requests.get(url)
        with open(path, 'wb') as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else :
        print("文件已存在")
except:
    print("爬取失败")

事实上,除了图片排序之外,网上有很多的资源,都是类似的url格式,比如说网上的一个视频,比如说网上的一个音乐,比如说网上的一个动画等等,我们可以用这个代码去修改,能够获取网络上得很多的不同的资源。

相关文章

网友评论

    本文标题:《Python网络爬虫》1.5 Requests库使用实例

    本文链接:https://www.haomeiwen.com/subject/nppfattx.html