Python爬取图片网站资源并下载

作者: 浪漫矢志不渝 | 来源:发表于2021-04-08 12:01 被阅读0次

首先针对不同网站采取的方式大同小异，但是基本大多数网站，不外乎通过匹配页面元素获取图片路径，或者api接口直接获取。这里主要介绍通过匹配页面元素获取的方式，达到采集图片资源并下载的目的。

这里主要引入的包有下面这些，具体这些包有哪些作用，可以自行了解。

类包

一般采集都会封装成函数，我这里就不封装了：

首先设置一些公共的参数配置，进项相关的准备配置。

path:图片存储路径。

host:采集域名(一般进行资源路径拼接时，可能需要用到)。

url:采集的页面链接(根据情况可配置成灵活路径)。

headers:模拟请求headers头，一般视情况而定。

基本设置

接下来就是进行页面数据的采集匹配了

采集下载图片

其中涉及灵活配置路径，有必要可以试一下，通过requests.get获取页面内容，在通过etree.HTML格式化内容，以便给xpath匹配信息。

拿到资源列表数据后，循环再去取图片资源内容，并写到文件中，基本就完成了。

网友评论

本文标题：Python爬取图片网站资源并下载

本文链接：https://www.haomeiwen.com/subject/dqgmkltx.html

Python爬取图片网站资源并下载