[spider]简单爬取必应每日图片

作者: Franckisses | 来源:发表于2019-01-17 21:19 被阅读1次

[spider]简单爬取必应每日图片
scrapy一个spider 爬取多个内容
Python爬虫Scrapy(五)_Spiders
（2018-05-22.Python从Zero到One）6、（爬
（2018-05-20.Python从Zero到One）4、（爬
scrapy-spiders探探
scrapy的快速入门（三）
2019-02.24（review）
2018-06-24
Power BI动态获取每日必应图片背景

今天下午写了一个爬虫。用的是requests、pyquery、urllib，这三个库完成的。看了下必应搜索的图片的url，不怎么好提取，转而进行抓取了另外的一个网站。
网站的链接如下：

url = 'http://bing.plmeizi.com/'

talk is cheap， code time！

import requests
from pyquery import PyQuery as pq
import time
from urllib import request


def get_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 \
    (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60'
               }
    response = requests.get(url,headers=headers)
    html = response.text.replace('&','') #由于版权的符号有问题。直接将&符号给替换了
    doc = pq(html)
    fonts = doc('font font')
    print(fonts.text())
    imgs = doc("img").items()
    for img in imgs:
        src = img.attr('src').replace('-listpic','')
        alt = img.attr('alt').split(' ')[0]
    try:
        request.urlretrieve(src,"hahah/"+alt+'.jpg')
    except FileNotFoundError as e:
        print(e,src,alt)
    finally:
        print("successfully")


if __name__ == '__main__':
for i in range(1,51):
    url = 'http://bing.plmeizi.com/?page={}'.format(i)
    print(i)
    get_page(url)
    time.sleep(2)

代码如上所示。但是爬取的过程中，前50页中有俩张图片是无法下载的。具体的原因是文件的命名的问题。在alt处理的地方还可以优化。剩下的工作，以后有时间在做。