十分钟做一个有价值的爬虫

作者: 不知伯乐 | 来源:发表于2017-08-19 17:33 被阅读0次

⒈背景

大概就是前几天吧,一个初中同学急匆匆的来找我,要我帮忙,做一张宣传图,当时大概脑热,答应了,结果,答应之后,我在想没有电脑,又没有ps的素材,要我怎样?
接着在网上找到了一个app,叫图痒,这名字够骚,当时就下载了,发现用起来还不错,最后成功帮了同学的忙,没完呢,我发现里面的素材真心好,可惜不能离线,于是就有了爬取ps素材的想法(๑>؂<๑)
上几张素材图

十分钟做一个有价值的爬虫
十分钟做一个有价值的爬虫
十分钟做一个有价值的爬虫
漂亮得不要不要ヽ(≧Д≦)ノ的

⒉分析思路

但是,我们平常爬取的都是网页,现在是app,HOW DO,于是我就想到了抓包,不得不说,这家公司的安全性,简直太低了。直接就是get一个网址,返回一个json,json里面包括了素材的类型,图片的地址,好了,数据有了,就是分析json了

3.json的分析

大概是我从来都没学json,这个步骤,累得我快崩溃,还好最后还是细心分析了,做事要认真

{
  code: 0,
  data: [
    /////{
      id: "89",
      name: "复活节",
      is_new: true,
      images: [
        {
          id: "2165",
          name: "FH10",
          url: "http://fileicyouxxxxxxxxxxxx",
          big_url: "http://file.pxxxxx.png",
          category_id: "89",
          pure_color: "1",
          width: "750",
          height: "750",
          is_new: true
        },////
         ////{  
          id: "2165",
          name: "FH10",
          url: "http://fileicyouxxxxxxxxxxxx",
          big_url: "http://file.pxxxxx.png",
          category_id: "89",
          pure_color: "1",
          width: "750",
          height: "750",
          is_new: true
}///]]}

这是简化的json,但都是如此循环的,data里有多个字典,但这里只给出一个,而字典里又有一个images的列表,列表里又有字典,只要在这个字典里获取big_url的值,就是获取了素材的下载地址,好乱,是不是,我一开始,也是懵比的

3.废话少说,代码

要用的话,文件的地址要改
要用的话,文件的地址要改
要用的话,文件的地址要改

#-*-coding:utf8;-*-
import os,re,requests,json,time
head={'User-Agent':'Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_0 like Mac OS X; en-us) AppleWebKit/532.9 (KHTML, like Gecko) Version/5.0.5 Mobile/8A93 Safari/6531.22.77'}

r=requests.get('http://api.picyoung.com/static/json/assets_lib_v2.json?tm=25048106',headers=head)#获取json

data=json.loads(r.text.encode('utf8'))#将网页加载给json解析

for item in data['data']['category'][0]['child']:#这里的0很重要,因为一共有6个主题,所以当0爬取完时,就填1,以此类推,填到5,当然你也可以通过一个循环自动爬取全部
  filename=item['name'].replace(' ','').encode('utf8') 
   if False==os.path.exists('/sdcard/to/%s'%filename):#判断文件夹存在,不存在,就创建

   os.mkdir("/sdcard/to/%s"%filename)

  a=0

  for items in item['images']:#遍历images列表里的字典
   url=items['big_url']#从字典里取图片的下载地址
   r=requests.get(url,headers=head,timeout=10)#加载图片

   with open('/sdcard/to/%s/%s.png'%(filename,a),'wb') as code:

    print '正在下载[%s]/%s'(item['name'].encode('utf8'),a)
    code.write(r.content)#写入图片
   a+=1
   time.sleep(0.5)#每爬取完一张,就休眠0.5秒,防止被网站发现

写在最后

感谢图痒这个公司,同时推荐大家使用
我的QQ1208662778,随时可问问题
数据大概这么多

十分钟做一个有价值的爬虫

相关文章

  • 十分钟做一个有价值的爬虫

    ⒈背景 大概就是前几天吧,一个初中同学急匆匆的来找我,要我帮忙,做一张宣传图,当时大概脑热,答应了,结果,答应之后...

  • 网络爬虫1-python学习32

    初识爬虫-爬虫的工作原理 什么是爬虫呢? 爬虫,从本质上来说,就是利用程序在网上拿到对我们有价值的数据。 爬虫能做...

  • 【技术贴】python之爬虫

    什么是爬虫? 到底什么是爬虫呢?爬虫,从本质上来说,就是利用程序在网上拿到对我们有价值的数据。 爬虫能做很多事,能...

  • Python爬虫入门--了解爬虫---什么是爬虫?

    Python爬虫入门--了解爬虫 什么是爬虫? 爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的...

  • 017价值

    做一个有价值的人 做一个对别人有价值的人 一个有价值的人说的是自己通过努力不断的提升 达到一定的境界 做一个对别人...

  • 【Python编程】---Python爬虫入门基础学习专题(一)

    前言:何为爬虫?爬虫指可以自动抓取特定互联网信息的程序,从包含海量信息的网页上抓取对于我们有价值的信息。 1.爬虫...

  • 爬虫总结 | 爬虫的那点事第一篇

    现在慢慢开始对爬虫的一些工作做一个总结,这是第一篇文章,整理聊下做一个爬虫系统时的一些感悟。 一、在(反)爬虫路上...

  • 2019-07-10 近期想解决的问题

    爬虫:登陆爬虫,各种视频网站爬虫,数据爬虫 各种网盘自动下载 点各个链接下载 mysql数据储存和提取 自己做一个...

  • pyppeteer持久化修改网站检测浏览器的特征值

    在互联网前沿具有价值的网站,在反爬虫领域也做出了深有成效的反爬虫措施,其中浏览器环境检测、用户行为检测是目前对爬虫...

  • python如何实现爬虫技术

    一、什么是爬虫 爬虫:爬虫的作用就是从互联网上抓取对我们有价值的信息。他的本质,是一段程序,是一段自动抓取互联网信...

网友评论

    本文标题:十分钟做一个有价值的爬虫

    本文链接:https://www.haomeiwen.com/subject/afwtdxtx.html