美文网首页Python教程/练习题我爱编程
使用Python selenium处理页面延迟加载问题

使用Python selenium处理页面延迟加载问题

作者: mmmwhy | 来源:发表于2016-12-29 18:37 被阅读2518次

    使用python爬取数据的时候,碰到了一个非常无语的问题。有个网站,在输入url进入页面之后,会强制加载一段动画,之后才显示正确内容。后来发现了selenium这个神器,不过还是折腾了我好久。更多见:李飞阳


    用selenium 设置浏览器等待时间

    很多人问,这个下拉框定位不到、那个弹出框定位不到…各种定位不到,其实大多数情况下就是两种问题:1 有frame,2 没有加等待。殊不知,你的代码运行速度是什么量级的,而浏览器加载渲染速度又是什么量级的,就好比闪电侠和奥特曼约好去打怪兽,然后闪电侠打完回来之后问奥特曼你为啥还在穿鞋没出门?奥特曼分分中内心一万只羊驼飞过,欺负哥速度慢,哥不跟
    运行需要两个前提,每个都不好搞。。

    最简单粗暴的一种办法就是强制等待sleep(xx),强制让闪电侠等xx时间,不管凹凸曼能不能跟上速度,还是已经提前到了,都必须等xx时间。

    # coding: utf-8
    from selenium import webdriver
    from time import sleep
    driver = webdriver.Chrome()
    driver.get('http://feiyang.li')
    sleep(3) # 强制等待3秒再执行下一步
    print driver.title
    driver.quit()
    

    结合selenium使用Xpath获得所需信息

    • 需要注意的是,selenium内find_elements的方法有很多种,xpath表达式的要求很严格,所以可以试试find_elements_id等方法。
    • Xpath表达式可以检测文字中是否包含某文字,以此为标准过滤。


      mark
    • Xpath表达式支持and 和 or。
    def extract_from(browser):
        links = browser.find_elements_by_xpath("//p[contains(text(), '出处') or contains(text(), '组成') or contains(text(), '组成') or contains(text(), '主治') or contains(text(), '用法')] ")
        print(browser.title)
        return [link.text for link in links]
    

    中文输入输出问题

    • send_keys() 不能正确的输入关键字,在中文前边加一个u即可,比如elem.send_keys(u'你好哇')
    • 不能正确的输出中文,print ('\n'.join(extract_from(browser)))
      以上两个问题都跟python2的特性有关,升级至3之后应当不会出现此类问题。

    写了一个小demo,解释中文输入输出问题

    # coding=utf-8
    
    import time
    from selenium import webdriver
    from selenium.webdriver.common.keys import Keys
    def search(key):
        elem = browser.find_element_by_xpath("//input[@id='kw']")
        elem.send_keys(key)
        elem.send_keys(Keys.RETURN)
        time.sleep(1)
    def extract_from(browser):
        links = browser.find_elements_by_xpath("//div[contains(text(),'李银河')]")
        return [link.text for link in links]
    key = u"你好哇"
    browser = webdriver.Chrome()
    browser.get('http://www.baidu.com')
    search(key)
    print ('\n'.join(extract_from(browser)))
    browser.close()
    

    运行结果见下,可以抽取出对应文字。


    运行结果

    Code

    # coding=utf-8
    
    import time
    import requests
    from selenium import webdriver
    from selenium.webdriver.common.keys import Keys
    
    
    def search(key):
        elem = browser.find_element_by_xpath("//input[@id='simple_search_filed']")
        elem.send_keys(key)
        elem.send_keys(Keys.RETURN)
        time.sleep(3)
    
    def extract_from(browser):
        links = browser.find_elements_by_xpath("//p[contains(text(), '出处') or contains(text(), '组成') or contains(text(), '组成') or contains(text(), '主治') or contains(text(), '用法')] ")
        print(browser.title)
        return [link.text for link in links]
    
    from lxml import etree
    html = requests.get("http://www.zk120.com/fang/")
    html.encoding = 'utf-8'
    selector = etree.HTML(html.text)
    content = selector.xpath("//ul/li/a/span[@class='free_icon_r']/../@href")
    for imgurl in content:
        imgurl = "http://www.zk120.com" +imgurl
        browser = webdriver.Chrome()
        browser.get(imgurl)
        time.sleep(2)
        print ('\n'.join(extract_from(browser)))
        print("------------")
        browser.close()
    

    参考代码

    在搜索资料的时候,同时发现了一个非常好的示例代码

    import re
    
    from selenium import webdriver
    from selenium.webdriver.common.by import By
    from selenium.webdriver.support.ui import WebDriverWait
    from selenium.webdriver.support import expected_conditions as EC
    
    
    def extract_data(browser):
        links = browser.find_elements_by_xpath('//i[@class="RecordStats"]/a')
        return [link.get_attribute('href') for link in links]
    
    
    browser = webdriver.Firefox()
    browser.get("http://www.scba.gov.ar/jurisprudencia/Navbar.asp?Busca=Fallos+Completos&SearchString=Inconstitucionalidad")
    
    # get max pages
    element = WebDriverWait(browser, 10).until(EC.presence_of_element_located((By.XPATH, "//p[@class='c'][last()]")))
    max_pages = int(re.search(r'\d+ de (\d+)', element.text).group(1), re.UNICODE)
    
    # extract from the current (1) page
    print "Page 1"
    print extract_data(browser)
    
    # loop over the rest of the pages
    for page in xrange(2, max_pages + 1):
        print "Page %d" % page
    
        next_page = browser.find_element_by_xpath("//table[last()]//td[last()]/a").click()
    
        print extract_data(browser)
        print "-----"
    

    这个地方真的花费了我好大的精力啊,让人头疼。

    相关文章

      网友评论

      • Flash_e188:我要看延迟的处理问题,你这巴拉巴拉一大堆,解决的是编码问题啊?
        能把你题目改了么?浪费时间
        mmmwhy:@Flash_e188 你脑子是不是有问题,你要看啥问题,关我什么事儿。拜托您呐,别跟个巨婴一样,我爱写啥写啥,您不想看赶紧滚。

      本文标题:使用Python selenium处理页面延迟加载问题

      本文链接:https://www.haomeiwen.com/subject/npspvttx.html