环境:python3.6 + pycharm
“猎物”:http://www.polayoutu.com (仅学习用)
动机1:想要爬一些尺寸比较大(不是尺度)的美图养养眼,仅此而已;
动机2:学习python爬虫,要学以致用
一、分析目标网站:
1.寻找URL:
摄影图片是分期展示的,我们滚动页面,滚动到140期,看到请求的URL如下:
“http://www.polaxiong.com/collections/get_entries_by_collection_id/140?{}”
2.大胆猜测:URL地址中"?{}"去掉可不可以?我们做一个尝试,直接输入“http://www.polaxiong.com/collections/get_entries_by_collection_id/140”,得到的是一个json字符串(我个人还是蛮喜欢json字符串的,因为它跟字典互相转换,炒鸡爽!)
3.看!有情报,data字段对应的value里有0-11编号的数据,展开其中一个,看到文件描述,心里乐开花,这不正是页面上图片的描述吗?而且,“full_res"字段对应的value,就是我们要找到原图URL。
4.尝试打开full_res的url地址,查看图片大小:2.9M,这肯定是原图啊,哪个网站缩略图能有2.9M的?
5.接下来,我们要做的就是把json字符串转成字典,取出full_res的值
二、我们看一下效果:
2张图片大小共19M,下载的是原图!
限于篇幅,这里就不贴出源码了,有需要的同学请移步公众号领取。
网友评论