30行Python爬虫代码爬取淘女郎网美女图，哇太多了，我U盘要

作者: Web前端学习营 | 来源:发表于2019-07-16 20:05 被阅读0次

首先，爬取的美女图片镇场子，免得你们又说我光说不练假把式！

好了废话不多说，我们直接进入正题！

需要额外安装的第三方库

requests

pip install requests

pymongo

pip install pymongo

原理

由于淘女郎网站含有AJAX技术，只需要和后台进行少量的数据交换就可以实时更新了，这就意味着直接抓取网页源码然后分析信息的方式心不痛，因为网站是动态接在的，直接抓取源代码无法获取到淘女郎信息。

对于这一类网站，一般有两种爬取办法：

利用selenium库来模拟浏览器的用户行为，让服务器以为是真正的用户在浏览网页，从而获得完整的网页源代码

利用Chrome等浏览器自带的分析工具，对网页的Network进行监控，分析出数据交换的API，从而利用API抓取到数据交换的JSON数据，从而进行抓取。

从效率上来分析，第一种方法速度比较慢，而且还要占用系统资源，因此我们使用第二种方法来实现。

先编写请求，然后得到淘女郎网站中的JSON文件。

发送请求给服务器。然后得到服务器的JSON数据，之后将返回的数据加工，然后转化为Python的字典类型返回。

具体的代码如下：

返回之后，我们连接到MongoDB，将返回的信息保存。

把返回的信息解析，然后抽取信息中的图片网址信息，将图片下载过劳保存到PIC文件夹下：

OK，爬完了，全部是原图超清的，但是由于图片数量比较多，我16G的U盘都快装不下了，这里就不一一展示出来了，只截图了其中的一部分给大家看一下。

网友评论

本文标题：30行Python爬虫代码爬取淘女郎网美女图，哇太多了，我U盘要

本文链接：https://www.haomeiwen.com/subject/yckxlctx.html

30行Python爬虫代码爬取淘女郎网美女图，哇太多了，我U盘要