美文网首页
Python爬虫存谷歌搜索图片

Python爬虫存谷歌搜索图片

作者: Reyuwei | 来源:发表于2020-04-13 18:44 被阅读0次

之前做box相关的learning项目,需要好多box的图片,就写了这个爬虫。
功能相当于在google image中搜索相关关键字,批量保存前几页图片。

from selenium import webdriver  
import time  
import urllib  
from selenium.webdriver.common.keys import Keys

# 查询图片的关键字
keys = ['cupboard','glass box']

# chrome driver绝对路径
driver = webdriver.Chrome('C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe')  


for key in keys:
    driver.get("https://www.google.co.jp/imghp?hl=zh-CN&tab=wi&ei=qJgtWINugqDSBJTzqqgI&ved=0EKouCBMoAQ")
    elem = driver.find_element_by_name("q")
    elem.send_keys(key)
    elem.send_keys(Keys.RETURN)
    #driver.fine_element_by_name("btnG").click()

    xpath = '//div[@id="rg_s"]/div/a'  

    driver.maximize_window()  
    #driver.set_window_size(1000,30000)
    #time.sleep(5)
    img_url_dic = {}  
    pos = 0  
    m = 0 
    #urlfile = open(key+".txt",'w')
    urlfile = open("url.txt",'a')
    for i in range(5): 
        print i
        pos += i*500 
        #js = "document.documentElement.scrollTop=%d" % pos  
        js = "window.scrollBy(0,%d)" % pos
        driver.execute_script(js)    
        time.sleep(3)
        for element in driver.find_elements_by_xpath(xpath): 
            img_url = element.get_attribute('href')   
            if img_url != None and not img_url_dic.has_key(img_url):  
                img_url_dic[img_url] = ''  
                img_url = img_url[img_url.index("=")+1:img_url.index("&")] #first image url - smallest
                img_url = img_url.replace("%3A",":") 
                img_url = img_url.replace("%2F","/")
                
                #####save picture
                #data = urllib.urlopen(img_url).read()  
                #filename = img_url[img_url.rindex("/")+1:]
                #f = open("pictures\\"+filename, 'wb')  
                #f.write(data)  
                #f.close()  
                
                #####save img url
                #print img_url
                urlfile.write(img_url)
                urlfile.write('\n')
    urlfile.close()
driver.close()

相关文章

  • Python爬虫存谷歌搜索图片

    之前做box相关的learning项目,需要好多box的图片,就写了这个爬虫。功能相当于在google image...

  • python 爬虫百度图片之列表图

    一、爬虫准备 语言:python浏览器:google chrome工具:request模块 首先我们在百度图片搜索...

  • Python爬虫-搜索并下载图片

    本文是我学习Python爬虫的笔记,一直想要再学一门语言来扩展自己的知识面,看了看各种语言主要使用的方向,最后决心...

  • 爬虫介绍

    爬虫前奏 爬虫的实际例子: 搜索引擎(百度、谷歌、360搜索等)。 伯乐在线。 惠惠购物助手。 数据分析与研究(数...

  • Python学习

    python爬虫(六) python爬取图片素材 通过爬虫爬取图片的地址以及电影的名称,然后将图片素材命名为电影名...

  • Python图片爬虫系列---批量下载谷歌图片Googleima

    最近有些图片爬取的需求,相信很多做CV的也需要,记录一下自己遇到的坑。 1. 安装 两种方法 (1)pip 安装,...

  • python爬虫知识点汇总大全,初学者必备资料

    第一节 爬虫前奏 爬虫的实际例子: 搜索引擎(百度、谷歌、360搜索等)。 伯乐在线。 惠惠购物助手。 数据分析与...

  • Python基础爬取数据存数据库

    Python爬虫操作 一、基础爬取数据存数据库 通过数据库的初始数据,包含搜索key信息。 1、读取数据库内容 2...

  • Scrapy实战-爬取豆瓣漫画

    背景知识 (一)什么是Scrapy呢?Python上优秀的爬虫框架。什么是爬虫?可以看我的心得感悟,也可以自行谷歌...

  • Python爬虫入门

    获取图片并存入文件夹中 利用有道翻译 Python爬虫将煎蛋网上的图片全部下载到本地 Python爬虫将贴吧上的图...

网友评论

      本文标题:Python爬虫存谷歌搜索图片

      本文链接:https://www.haomeiwen.com/subject/habnmhtx.html