美文网首页
shell爬虫批量下载豆瓣相册图片

shell爬虫批量下载豆瓣相册图片

作者: uuspider | 来源:发表于2018-03-18 22:05 被阅读143次

    不久前家里装修,想搞个书架,看到豆瓣上有这么一个相册收集了一些书房书架的图片,简单写了个shell全部抓回来参考。

    shell爬取豆瓣相册中的图片

    分析该相册首页的源码,可以看到相册总页数含有关键字data-total-page,每一页有18张图片,次页到最后一页的url,只要在首页url后加?start=PAGENUMBER,其中PAGENUMBER18*页码,通过字符串拼接即得到相册每一页完整的url。

    get_page_url(){
      num_pages=$(curl -A "${user_agent}" "${base_url}" | grep 'data-total-page' | head -n 1 | awk -F\" '{print $4}')
      for ((i=0; i<=num_pages; i++))
      do
        page_no=$(( 18 * i))
        page_url="${base_url}"?start=${page_no}
        get_img_no ${page_url}
      done
    }
    

    这里定义了一个函数get_page_url用于获取相册每一页的url,并将该url传递给另一个函数get_img_no,这是一种shell中常用的参数传递方法。

    需要注意,在(())中引用的变量不需要加前缀$

    函数get_img_no用于获取相册每一页中目标图片的编号,只要搜索关键词photolst_photo即可。

    get_img_no() {
      curl -A "${user_agent}" "$1" | grep "photolst_photo" | awk -F\/ '{print $6}' >> /tmp/img_no.txt
    }
    

    $1就是从get_page_url传递过来的网址,从该网址中提取图片的编号,存储到文件/tmp/img_no.txt中。

    通过函数get_page_url中的for循环,反复调用get_img_no,就把相册每一页中的图片编号全部提取出来了。

    图片的url可以通过简单的字符串拼接得到,但是该页面所展示的图片只是一个缩略图,为了得到原图,需要解析“查看大图”的链接。

    get_img() {
      while read line
      do
        if !(grep $line img_done.txt)
        then
          img_s_url="https://www.douban.com/photos/photo/""$line""/large"
          img_url=$(curl -A "${user_agent}" "$img_s_url" | grep '/large/' | awk -F\" '{print $6}')
          curl -A "${user_agent}" -O "$img_url"
          echo $line >> img_done.txt
          sleep 20
        fi
      done < /tmp/img_no.txt
      rm /tmp/img_no.txt
    }
    

    函数get_img用于解析大图链接并下载图片。while循环按行提取图片编号,拼接为图片所在网页的链接img_s_url,该网页中的“查看大图”含有关键词/large/,很容易解析出大图链接img_url,下载完大图后,将该图编号追加到文件img_done.txt中,也就是说img_done.txt中存储了所有已下载图片的编号。

    这里的if用于确认某一张图片是否已经下载过,如果下载过则直接跳过,不再重复下载。如果每隔一段时间运行一次该脚本,就可以保证只下载最新图片。

    豆瓣的反爬措施相对而言是比较完善的,不过只要稍微控制一下访问频率,爬取少量图片还不足以触发反爬程序,因此加入了一个延时sleep 20

    完整的代码如下。

    #!/usr/bin/env bash
    
    base_url='https://www.douban.com/photos/album/84338335/'
    user_agent='Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.130 Safari/537.36'
    
    touch img_done.txt
    
    get_img() {
      while read line
      do
        if !(grep $line img_done.txt)
        then
          img_s_url="https://www.douban.com/photos/photo/""$line""/large"
          img_url=$(curl -A "${user_agent}" "$img_s_url" | grep '/large/' | awk -F\" '{print $6}')
          curl -A "${user_agent}" -O "$img_url"
          echo $line >> img_done.txt
          sleep 20
        fi
      done < /tmp/img_no.txt
      rm /tmp/img_no.txt
    }
    
    get_img_no() {
      curl -A "${user_agent}" "$1" | grep "photolst_photo" | awk -F\/ '{print $6}' >> /tmp/img_no.txt
    }
    
    get_page_url(){
      num_pages=$(curl -A "${user_agent}" "${base_url}" | grep 'data-total-page' | head -n 1 | awk -F\" '{print $4}')
      for ((i=0; i<=num_pages; i++))
      do
        page_no=$(( 18 * i))
        page_url="${base_url}"?start=${page_no}
        get_img_no ${page_url}
      done
    }
    
    get_page_url
    get_img
    
    exit 0
    

    由于首次运行时还没有img_done.txt文件,因此使用touch新建一个文件,如果该文件已经存在,touch只更新文件的属性信息。

    将该文件存储为get_img.sh,通过bash -x可在终端中实时看到脚本运行的情况:

    $ bash -x get_img.sh
    

    如果把脚本扔到crontab中定时运行,就可以追踪该相册的更新情况,并自动下载最新图片了。(不过这个相册貌似很久都不更新了。)

    搞明白这个简单的例子,抓取豆瓣上其它类似内容都易如反掌了。

    这个脚本充分体现了shell“糙、猛、快”的特点,对于一次性的自用需求,简直不能再合适了。

    豆瓣上有个“害羞组”,是很多python爬虫初学者的试验目标,何不试试shell呢?

    相关文章

      网友评论

          本文标题:shell爬虫批量下载豆瓣相册图片

          本文链接:https://www.haomeiwen.com/subject/zlaefftx.html