美文网首页
[spider]简单爬取必应每日图片

[spider]简单爬取必应每日图片

作者: Franckisses | 来源:发表于2019-01-17 21:19 被阅读1次

      今天下午写了一个爬虫。用的是requests、pyquery、urllib,这三个库完成的。看了下必应搜索的图片的url,不怎么好提取,转而进行抓取了另外的一个网站。
      网站的链接如下:

url = 'http://bing.plmeizi.com/'

talk is cheap, code time!

import requests
from pyquery import PyQuery as pq
import time
from urllib import request


def get_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 \
    (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60'
               }
    response = requests.get(url,headers=headers)
    html = response.text.replace('&','') #由于版权的符号有问题。直接将&符号给替换了
    doc = pq(html)
    fonts = doc('font font')
    print(fonts.text())
    imgs = doc("img").items()
    for img in imgs:
        src = img.attr('src').replace('-listpic','')
        alt = img.attr('alt').split(' ')[0]
    try:
        request.urlretrieve(src,"hahah/"+alt+'.jpg')
    except FileNotFoundError as e:
        print(e,src,alt)
    finally:
        print("successfully")


if __name__ == '__main__':
for i in range(1,51):
    url = 'http://bing.plmeizi.com/?page={}'.format(i)
    print(i)
    get_page(url)
    time.sleep(2)

代码如上所示。但是爬取的过程中,前50页中有俩张图片是无法下载的。具体的原因是文件的命名的问题。在alt处理的地方还可以优化。剩下的工作,以后有时间在做。

相关文章

网友评论

      本文标题:[spider]简单爬取必应每日图片

      本文链接:https://www.haomeiwen.com/subject/uzewdqtx.html