使用Python selenium处理页面延迟加载问题

作者: mmmwhy | 来源:发表于2016-12-29 18:37 被阅读2518次

使用python爬取数据的时候，碰到了一个非常无语的问题。有个网站，在输入url进入页面之后，会强制加载一段动画，之后才显示正确内容。后来发现了selenium这个神器，不过还是折腾了我好久。更多见：李飞阳

用selenium 设置浏览器等待时间

很多人问，这个下拉框定位不到、那个弹出框定位不到…各种定位不到，其实大多数情况下就是两种问题：1 有frame，2 没有加等待。殊不知，你的代码运行速度是什么量级的，而浏览器加载渲染速度又是什么量级的，就好比闪电侠和奥特曼约好去打怪兽，然后闪电侠打完回来之后问奥特曼你为啥还在穿鞋没出门？奥特曼分分中内心一万只羊驼飞过，欺负哥速度慢，哥不跟
运行需要两个前提，每个都不好搞。。

首先需要安装**selenium **，
推荐使用pip安装,pip install selenium
或者直接下载selenium包:https://pypi.python.org/pypi/selenium，解压，cmd进入目录:python setup.py install
接下来安装** ChromeDriver**
推荐在这里 https://sites.google.com/a/chromium.org/chromedriver/downloads 下载，然后放在Chrome浏览器目录内，配置Path环境变量为形如 XXGoogle\Chrome\Application的形式
你玩了，抛个异常撂挑子了。

最简单粗暴的一种办法就是强制等待sleep(xx)，强制让闪电侠等xx时间，不管凹凸曼能不能跟上速度，还是已经提前到了，都必须等xx时间。

# coding: utf-8
from selenium import webdriver
from time import sleep
driver = webdriver.Chrome()
driver.get('http://feiyang.li')
sleep(3) # 强制等待3秒再执行下一步
print driver.title
driver.quit()

结合selenium使用Xpath获得所需信息

需要注意的是，selenium内find_elements的方法有很多种，xpath表达式的要求很严格，所以可以试试find_elements_id等方法。
Xpath表达式可以检测文字中是否包含某文字，以此为标准过滤。

mark
Xpath表达式支持and 和 or。

def extract_from(browser):
    links = browser.find_elements_by_xpath("//p[contains(text(), '出处') or contains(text(), '组成') or contains(text(), '组成') or contains(text(), '主治') or contains(text(), '用法')] ")
    print(browser.title)
    return [link.text for link in links]

中文输入输出问题

send_keys() 不能正确的输入关键字，在中文前边加一个u即可，比如elem.send_keys(u'你好哇')
不能正确的输出中文，print ('\n'.join(extract_from(browser)))
以上两个问题都跟python2的特性有关，升级至3之后应当不会出现此类问题。

写了一个小demo，解释中文输入输出问题

# coding=utf-8

import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
def search(key):
    elem = browser.find_element_by_xpath("//input[@id='kw']")
    elem.send_keys(key)
    elem.send_keys(Keys.RETURN)
    time.sleep(1)
def extract_from(browser):
    links = browser.find_elements_by_xpath("//div[contains(text(),'李银河')]")
    return [link.text for link in links]
key = u"你好哇"
browser = webdriver.Chrome()
browser.get('http://www.baidu.com')
search(key)
print ('\n'.join(extract_from(browser)))
browser.close()

运行结果见下，可以抽取出对应文字。

运行结果

Code

# coding=utf-8

import time
import requests
from selenium import webdriver
from selenium.webdriver.common.keys import Keys


def search(key):
    elem = browser.find_element_by_xpath("//input[@id='simple_search_filed']")
    elem.send_keys(key)
    elem.send_keys(Keys.RETURN)
    time.sleep(3)

def extract_from(browser):
    links = browser.find_elements_by_xpath("//p[contains(text(), '出处') or contains(text(), '组成') or contains(text(), '组成') or contains(text(), '主治') or contains(text(), '用法')] ")
    print(browser.title)
    return [link.text for link in links]

from lxml import etree
html = requests.get("http://www.zk120.com/fang/")
html.encoding = 'utf-8'
selector = etree.HTML(html.text)
content = selector.xpath("//ul/li/a/span[@class='free_icon_r']/../@href")
for imgurl in content:
    imgurl = "http://www.zk120.com" +imgurl
    browser = webdriver.Chrome()
    browser.get(imgurl)
    time.sleep(2)
    print ('\n'.join(extract_from(browser)))
    print("------------")
    browser.close()

参考代码

在搜索资料的时候，同时发现了一个非常好的示例代码

import re

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC


def extract_data(browser):
    links = browser.find_elements_by_xpath('//i[@class="RecordStats"]/a')
    return [link.get_attribute('href') for link in links]


browser = webdriver.Firefox()
browser.get("http://www.scba.gov.ar/jurisprudencia/Navbar.asp?Busca=Fallos+Completos&SearchString=Inconstitucionalidad")

# get max pages
element = WebDriverWait(browser, 10).until(EC.presence_of_element_located((By.XPATH, "//p[@class='c'][last()]")))
max_pages = int(re.search(r'\d+ de (\d+)', element.text).group(1), re.UNICODE)

# extract from the current (1) page
print "Page 1"
print extract_data(browser)

# loop over the rest of the pages
for page in xrange(2, max_pages + 1):
    print "Page %d" % page

    next_page = browser.find_element_by_xpath("//table[last()]//td[last()]/a").click()

    print extract_data(browser)
    print "-----"

这个地方真的花费了我好大的精力啊，让人头疼。

网友评论

Flash_e188:我要看延迟的处理问题，你这巴拉巴拉一大堆，解决的是编码问题啊？
能把你题目改了么？浪费时间
mmmwhy:@Flash_e188 你脑子是不是有问题，你要看啥问题，关我什么事儿。拜托您呐，别跟个巨婴一样，我爱写啥写啥，您不想看赶紧滚。

本文标题：使用Python selenium处理页面延迟加载问题

本文链接：https://www.haomeiwen.com/subject/npspvttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

使用Python selenium处理页面延迟加载问题

用selenium 设置浏览器等待时间

结合selenium使用Xpath获得所需信息

中文输入输出问题

Code

参考代码

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python教程/练习题

我爱编程