近期在做一个王者荣耀的英雄APP,由于需要数据,于是用Python取官网抓数据,然而他家的网站是.shtml的,普通的方法urllib是抓不到数据的,后来通过selenium解决问题,会真实打开浏览器爬取代码,效率低一些,但是满足了本次要求;代码如下(记得安装selenuim包, 配置Firefox环境变量):
#coding = utf-8
#author: liutao
from selenium import web driver
from lxml import tree
browser = webdriver.Firefox()
browser.get('http://pvp.qq.com/web201605/herolist.shtml')
content = browser.page_source
print(content)
browser.quit() # 退出浏览器
网友评论