一个不错的图片网站的图片抓取--selenium 右键保存和直接

作者: vansnowpea | 来源:发表于2016-09-18 14:51 被阅读4755次

一个不错的图片网站的图片抓取--selenium 右键保存和直接
用 Jupyter Notebook 爬取微博图片保存本地！
最简单的selenium+Python自动右键保存图片
python库学习之Requests
PNAS|芝麻开门: miRNA调节植物气孔的发育和分布
PNAS|一个负调控番茄果实大小ENO基因被发现
Nat.Biotechnol|能靶向冠状病毒RNA的新型CRIS
Nature Plants|植物如何对危险做出响应
Cell| 德国马普所研究人员首次发现调节脂肪酸合酶的蛋白质
Nat.Commun.|细菌形成的生物膜就像城市里的定居者一样

title: stocksnap 一个不错的图片网站的图片抓取--selenium 右键保存和直接写入2个模式【python】
date: 2016-09-18 10:59:28
tags:

参考：原文1#

参考：原文2#

1、原文1采用了scrapy方法，本文改编用selenium方法，并参考原文2首次采用模拟右键来保存图片。

2、网站分析：

首先发现鼠标拖动到图片底部区域，主页又不断加载新的图片，可判断是异步的。另单独查看2个图的xpath，发现总体格式一致，编号部分有差异：

/html/body/div[4]/div[3]/div[2]/div/div[1]/a/img

/html/body/div[4]/div[3]/div[2]/div/div[11]/a/img

这样我们就得到了在firefox下统一的xpath为，注意是删除div[i]部分，留下2个斜杠：

/html/body/div[4]/div[3]/div[2]/div//a/img

此时，可能觉得为啥要删除，而不是用正则式.*代替？测试那样的结果是Nan，也就是说xpath的格式和re格式不能混搭。

而每个jpg地址在src属性中，所以如果想查阅批量的图片地址，则：

/html/body/div[4]/div[3]/div[2]/div//a/img/@src

3、既然这么爽的得到了图片地址，剩下就是批量下载保存了：

这一次，先测试了用firefox模拟人工右键保存的方法，代码如下，保存那块还没整明白，也就是自动到出现图片保存的界面,根本原因是selenium无法操作操作系统级的对话框：

索性快速人工点保存，30个图的保存位置都是重复的，依次得到30个图：

4、随机打开一个图，如下，可见测试ok：

5、代码：

# -*- coding: utf-8 -*-
# python 3.5.2
# Author:vansnowpea
# stocksnap 一个不错的图片网站的图片，右键保存抓取

from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.keys import Keys


print('Please wait...Firefox loading...')
print('---------------------------------')


url = "https://stocksnap.io/"

# 用浏览器实现访问
driver = webdriver.Firefox()
driver.maximize_window()
driver.get(url)

# 得到总的jpgs的路径集合
xpath = "/html/body/div[4]/div[3]/div[2]/div//a/img"

# set profile
fp = webdriver.FirefoxProfile()
fp.set_preference('browser.download.folderList', 2)
fp.set_preference('browser.download.manager.showWhenStarting', False)
fp.set_preference('browser.download.dir', './yourfolder/')
fp.set_preference('browser.helperApps.neverAsk.saveToDisk', 'image/jpeg')



# 保存图片,人工批量点保存，selenium无法操作操作系统级的对话框
for element in driver.find_elements_by_xpath(xpath):
    img_url = element.get_attribute('src')
    img_desc = element.get_attribute('data-desc')

    action = ActionChains(driver).move_to_element(element)
    action.context_click(element)
    action.send_keys(Keys.ARROW_DOWN)
    action.send_keys('v')
    action.perform()

print('Well done! all pictures downloaded.')
print('---------------------------------')

# driver.close()

6、如果图片数量少，人工保存下也无妨，但数量大肯定不行，所以还是用常规的自动写入数据保存的方式。另外此网站是通过ajax异步加载，当鼠标放到首页30个图的下方，也就是浏览器底部区域，他又会自动加载新的图片出来。而通过新的第一层代码的模拟鼠标下移，可以得到更多的图片。千万要注意的是，在python 3中，对数dict的关键词查找是in，比如：if n in previous:而在python 2 中是has_key,比如：if previous.has_key(n):对应代码为：

# python 3.5.2
from selenium import webdriver  
import time  
import urllib


# 爬取页面地址  
url = "https://stocksnap.io/"

# 目标元素的xpath  
xpath = "/html/body/div[4]/div[3]/div[2]/div//a/img"
  
# 启动Firefox浏览器  
driver = webdriver.Firefox()  
  
# 最大化窗口，因为每一次爬取只能看到视窗内的图片  
driver.maximize_window()  
  
# 记录下载过的图片地址，避免重复下载  
img_url_dic = {}  
  
# 浏览器打开爬取页面  
driver.get(url)  
  
# 模拟滚动窗口以浏览下载更多图片  
pos = 0  
m = 0 # 图片编号  
for i in range(10):  
    pos += i*500 # 每次下滚500  
    js = "document.documentElement.scrollTop=%d" % pos  
    driver.execute_script(js)  
    time.sleep(1)     
      
    for element in driver.find_elements_by_xpath(xpath):  
        img_url = element.get_attribute('src')  
        # 保存图片到指定路径  
        if img_url != None and not img_url in img_url_dic:

            img_url_dic[img_url] = ''  
            m += 1  
            ext = img_url.split('.')[-1]  
            filename = str(m) + '.' + ext  
            #保存图片数据  
            data = urllib.request.urlopen(img_url).read()
            f = open('./van/' + filename, 'wb')
            f.write(data)  
            f.close()  
driver.close()

7、结果展示：相对第一个方法，获取了更多的图片：

网友评论

2c8dde622255:这种网站用selenium怕是不太ok啊
Garfield_Liang:感觉这个想法很有新意啊
vansnowpea:@Garfield_Liang 请问你说的走投无路，具体指的是？
Garfield_Liang: @vansnowpea 这个是走投无路的必定可行的一招😂😂
vansnowpea:@Garfield_Liang 动态的可考虑用selenium 就是非常占用资源。

本文标题：一个不错的图片网站的图片抓取--selenium 右键保存和直接

本文链接：https://www.haomeiwen.com/subject/euxgettx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

一个不错的图片网站的图片抓取--selenium 右键保存和直接

参考：原文1#

参考：原文2#

相关文章

一个不错的图片网站的图片抓取--selenium 右键保存和直接

用 Jupyter Notebook 爬取微博图片保存本地！

最简单的selenium+Python自动右键保存图片

python库学习之Requests

PNAS|芝麻开门: miRNA调节植物气孔的发育和分布

PNAS|一个负调控番茄果实大小ENO基因被发现

Nat.Biotechnol|能靶向冠状病毒RNA的新型CRIS

Nature Plants|植物如何对危险做出响应

Cell| 德国马普所研究人员首次发现调节脂肪酸合酶的蛋白质

Nat.Commun.|细菌形成的生物膜就像城市里的定居者一样

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

爬虫

Python中文社区

我爱编程