美文网首页爬虫Python中文社区我爱编程
一个不错的图片网站的图片抓取--selenium 右键保存和直接

一个不错的图片网站的图片抓取--selenium 右键保存和直接

作者: vansnowpea | 来源:发表于2016-09-18 14:51 被阅读4755次

    title: stocksnap 一个不错的图片网站的图片抓取--selenium 右键保存和直接写入2个模式【python】
    date: 2016-09-18 10:59:28
    tags:


    参考:原文1#

    参考:原文2#

    1、原文1采用了scrapy方法,本文改编用selenium方法,并参考原文2首次采用模拟右键来保存图片。

    2、网站分析:

    首先发现鼠标拖动到图片底部区域,主页又不断加载新的图片,可判断是异步的。另单独查看2个图的xpath,发现总体格式一致,编号部分有差异:

    /html/body/div[4]/div[3]/div[2]/div/div[1]/a/img
    
    /html/body/div[4]/div[3]/div[2]/div/div[11]/a/img
    

    这样我们就得到了在firefox下统一的xpath为,注意是删除div[i]部分,留下2个斜杠:

    /html/body/div[4]/div[3]/div[2]/div//a/img
    

    此时,可能觉得为啥要删除,而不是用正则式.*代替?测试那样的结果是Nan,也就是说xpath的格式和re格式不能混搭。

    而每个jpg地址在src属性中,所以如果想查阅批量的图片地址,则:

    /html/body/div[4]/div[3]/div[2]/div//a/img/@src
    

    3、既然这么爽的得到了图片地址,剩下就是批量下载保存了:

    这一次,先测试了用firefox模拟人工右键保存的方法,代码如下,保存那块还没整明白,也就是自动到出现图片保存的界面,根本原因是selenium无法操作操作系统级的对话框:

    索性快速人工点保存,30个图的保存位置都是重复的,依次得到30个图:

    4、随机打开一个图,如下,可见测试ok:


    5、代码:

    # -*- coding: utf-8 -*-
    # python 3.5.2
    # Author:vansnowpea
    # stocksnap 一个不错的图片网站的图片,右键保存抓取
    
    from selenium import webdriver
    from selenium.webdriver.common.action_chains import ActionChains
    from selenium.webdriver.common.keys import Keys
    
    
    print('Please wait...Firefox loading...')
    print('---------------------------------')
    
    
    url = "https://stocksnap.io/"
    
    # 用浏览器实现访问
    driver = webdriver.Firefox()
    driver.maximize_window()
    driver.get(url)
    
    # 得到总的jpgs的路径集合
    xpath = "/html/body/div[4]/div[3]/div[2]/div//a/img"
    
    # set profile
    fp = webdriver.FirefoxProfile()
    fp.set_preference('browser.download.folderList', 2)
    fp.set_preference('browser.download.manager.showWhenStarting', False)
    fp.set_preference('browser.download.dir', './yourfolder/')
    fp.set_preference('browser.helperApps.neverAsk.saveToDisk', 'image/jpeg')
    
    
    
    # 保存图片,人工批量点保存,selenium无法操作操作系统级的对话框
    for element in driver.find_elements_by_xpath(xpath):
        img_url = element.get_attribute('src')
        img_desc = element.get_attribute('data-desc')
    
        action = ActionChains(driver).move_to_element(element)
        action.context_click(element)
        action.send_keys(Keys.ARROW_DOWN)
        action.send_keys('v')
        action.perform()
    
    print('Well done! all pictures downloaded.')
    print('---------------------------------')
    
    # driver.close()
    

    6、如果图片数量少,人工保存下也无妨,但数量大肯定不行,所以还是用常规的自动写入数据保存的方式。另外此网站是通过ajax异步加载,当鼠标放到首页30个图的下方,也就是浏览器底部区域,他又会自动加载新的图片出来。而通过新的第一层代码的模拟鼠标下移,可以得到更多的图片。千万要注意的是,在python 3中,对数dict的关键词查找是in,比如:if n in previous:而在python 2 中是has_key,比如:if previous.has_key(n):对应代码为:

    # python 3.5.2
    from selenium import webdriver  
    import time  
    import urllib
    
    
    # 爬取页面地址  
    url = "https://stocksnap.io/"
    
    # 目标元素的xpath  
    xpath = "/html/body/div[4]/div[3]/div[2]/div//a/img"
      
    # 启动Firefox浏览器  
    driver = webdriver.Firefox()  
      
    # 最大化窗口,因为每一次爬取只能看到视窗内的图片  
    driver.maximize_window()  
      
    # 记录下载过的图片地址,避免重复下载  
    img_url_dic = {}  
      
    # 浏览器打开爬取页面  
    driver.get(url)  
      
    # 模拟滚动窗口以浏览下载更多图片  
    pos = 0  
    m = 0 # 图片编号  
    for i in range(10):  
        pos += i*500 # 每次下滚500  
        js = "document.documentElement.scrollTop=%d" % pos  
        driver.execute_script(js)  
        time.sleep(1)     
          
        for element in driver.find_elements_by_xpath(xpath):  
            img_url = element.get_attribute('src')  
            # 保存图片到指定路径  
            if img_url != None and not img_url in img_url_dic:
    
                img_url_dic[img_url] = ''  
                m += 1  
                ext = img_url.split('.')[-1]  
                filename = str(m) + '.' + ext  
                #保存图片数据  
                data = urllib.request.urlopen(img_url).read()
                f = open('./van/' + filename, 'wb')
                f.write(data)  
                f.close()  
    driver.close()  
    

    7、结果展示:相对第一个方法,获取了更多的图片:


    相关文章

      网友评论

      • 2c8dde622255:这种网站 用selenium怕是不太ok啊
      • Garfield_Liang:感觉这个想法很有新意啊
        vansnowpea:@Garfield_Liang 请问你说的走投无路 ,具体指的是?
        Garfield_Liang: @vansnowpea 这个是走投无路的必定可行的一招😂😂
        vansnowpea:@Garfield_Liang 动态的可考虑用selenium 就是非常占用资源。

      本文标题:一个不错的图片网站的图片抓取--selenium 右键保存和直接

      本文链接:https://www.haomeiwen.com/subject/euxgettx.html