首先针对不同网站采取的方式大同小异,但是基本大多数网站,不外乎通过匹配页面元素获取图片路径,或者api接口直接获取。这里主要介绍通过匹配页面元素获取的方式,达到采集图片资源并下载的目的。
这里主要引入的包有下面这些,具体这些包有哪些作用,可以自行了解。
类包一般采集都会封装成函数,我这里就不封装了:
首先设置一些公共的参数配置,进项相关的准备配置。
path:图片存储路径。
host:采集域名(一般进行资源路径拼接时,可能需要用到)。
url:采集的页面链接(根据情况可配置成灵活路径)。
headers:模拟请求headers头,一般视情况而定。
基本设置接下来就是进行页面数据的采集匹配了
采集下载图片其中涉及灵活配置路径,有必要可以试一下,通过requests.get获取页面内容,在通过etree.HTML格式化内容,以便给xpath匹配信息。
拿到资源列表数据后,循环再去取图片资源内容,并写到文件中,基本就完成了。
网友评论