使用python爬取数据的时候,碰到了一个非常无语的问题。有个网站,在输入url进入页面之后,会强制加载一段动画,之后才显示正确内容。后来发现了selenium这个神器,不过还是折腾了我好久。更多见:李飞阳
用selenium 设置浏览器等待时间
很多人问,这个下拉框定位不到、那个弹出框定位不到…各种定位不到,其实大多数情况下就是两种问题:1 有frame,2 没有加等待。殊不知,你的代码运行速度是什么量级的,而浏览器加载渲染速度又是什么量级的,就好比闪电侠和奥特曼约好去打怪兽,然后闪电侠打完回来之后问奥特曼你为啥还在穿鞋没出门?奥特曼分分中内心一万只羊驼飞过,欺负哥速度慢,哥不跟
运行需要两个前提,每个都不好搞。。
- 首先需要安装**selenium **,
推荐使用pip安装,pip install selenium
或者直接下载selenium包:https://pypi.python.org/pypi/selenium,解压,cmd进入目录:python setup.py install
- 接下来安装** ChromeDriver**
推荐在这里 https://sites.google.com/a/chromium.org/chromedriver/downloads 下载,然后放在Chrome浏览器目录内,配置Path环境变量为形如 XXGoogle\Chrome\Application的形式
你玩了,抛个异常撂挑子了。
最简单粗暴的一种办法就是强制等待sleep(xx),强制让闪电侠等xx时间,不管凹凸曼能不能跟上速度,还是已经提前到了,都必须等xx时间。
# coding: utf-8
from selenium import webdriver
from time import sleep
driver = webdriver.Chrome()
driver.get('http://feiyang.li')
sleep(3) # 强制等待3秒再执行下一步
print driver.title
driver.quit()
结合selenium使用Xpath获得所需信息
- 需要注意的是,selenium内find_elements的方法有很多种,xpath表达式的要求很严格,所以可以试试find_elements_id等方法。
-
Xpath表达式可以检测文字中是否包含某文字,以此为标准过滤。
mark - Xpath表达式支持and 和 or。
def extract_from(browser):
links = browser.find_elements_by_xpath("//p[contains(text(), '出处') or contains(text(), '组成') or contains(text(), '组成') or contains(text(), '主治') or contains(text(), '用法')] ")
print(browser.title)
return [link.text for link in links]
中文输入输出问题
- send_keys() 不能正确的输入关键字,在中文前边加一个u即可,比如
elem.send_keys(u'你好哇')
- 不能正确的输出中文,
print ('\n'.join(extract_from(browser)))
以上两个问题都跟python2的特性有关,升级至3之后应当不会出现此类问题。
写了一个小demo,解释中文输入输出问题
# coding=utf-8
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
def search(key):
elem = browser.find_element_by_xpath("//input[@id='kw']")
elem.send_keys(key)
elem.send_keys(Keys.RETURN)
time.sleep(1)
def extract_from(browser):
links = browser.find_elements_by_xpath("//div[contains(text(),'李银河')]")
return [link.text for link in links]
key = u"你好哇"
browser = webdriver.Chrome()
browser.get('http://www.baidu.com')
search(key)
print ('\n'.join(extract_from(browser)))
browser.close()
运行结果见下,可以抽取出对应文字。
运行结果
Code
# coding=utf-8
import time
import requests
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
def search(key):
elem = browser.find_element_by_xpath("//input[@id='simple_search_filed']")
elem.send_keys(key)
elem.send_keys(Keys.RETURN)
time.sleep(3)
def extract_from(browser):
links = browser.find_elements_by_xpath("//p[contains(text(), '出处') or contains(text(), '组成') or contains(text(), '组成') or contains(text(), '主治') or contains(text(), '用法')] ")
print(browser.title)
return [link.text for link in links]
from lxml import etree
html = requests.get("http://www.zk120.com/fang/")
html.encoding = 'utf-8'
selector = etree.HTML(html.text)
content = selector.xpath("//ul/li/a/span[@class='free_icon_r']/../@href")
for imgurl in content:
imgurl = "http://www.zk120.com" +imgurl
browser = webdriver.Chrome()
browser.get(imgurl)
time.sleep(2)
print ('\n'.join(extract_from(browser)))
print("------------")
browser.close()
参考代码
在搜索资料的时候,同时发现了一个非常好的示例代码
import re
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
def extract_data(browser):
links = browser.find_elements_by_xpath('//i[@class="RecordStats"]/a')
return [link.get_attribute('href') for link in links]
browser = webdriver.Firefox()
browser.get("http://www.scba.gov.ar/jurisprudencia/Navbar.asp?Busca=Fallos+Completos&SearchString=Inconstitucionalidad")
# get max pages
element = WebDriverWait(browser, 10).until(EC.presence_of_element_located((By.XPATH, "//p[@class='c'][last()]")))
max_pages = int(re.search(r'\d+ de (\d+)', element.text).group(1), re.UNICODE)
# extract from the current (1) page
print "Page 1"
print extract_data(browser)
# loop over the rest of the pages
for page in xrange(2, max_pages + 1):
print "Page %d" % page
next_page = browser.find_element_by_xpath("//table[last()]//td[last()]/a").click()
print extract_data(browser)
print "-----"
这个地方真的花费了我好大的精力啊,让人头疼。
网友评论
能把你题目改了么?浪费时间