使用Selenium爬取动态渲染页面

作者: GHope | 来源:发表于2018-11-04 21:25 被阅读19次

使用Selenium爬取动态渲染页面
Selenium 爬取动态渲染页面
使用Selenium模拟浏览器行为
在Scrapy中运用Selenium和Chrome
Python 爬虫 - selenium动态渲染页面爬取
Scrapy+Selenium+Headless Chrome的
Python分布式动态页面爬虫研究
day69-Selenium爬取动态渲染页面
webmagic selenium 爬取动态页面
ChromeDriver设置有密码的代理(Java版本)

首先分享一波谷歌的驱动,下载并配置环境变量。一般来说是可以使用了的，但是我的爬虫环境是利用虚拟环境工具单独搭建的专门用来爬虫的环境且本身并没有添加到环境变量所以导致出错。最后的解决方法是将驱动拷贝到该虚拟环境目录下的Scripts文件夹中即可使用。

Selenium

Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome，Opera等。这个工具的主要功能包括：测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成 .Net、Java、Perl等不同语言的测试脚本。

安装

pip install selenium

简单使用

下面以“阿里V任务”的“直播服务”为例，来演示如何使用Selenium获取到动态内容并抓取主播图片。

import requests

from bs4 import BeautifulSoup


def main():
    resp = requests.get('https://v.taobao.com/v/content/live?catetype=704&from=taonvlang')
    soup = BeautifulSoup(resp.text, 'lxml')
    for img_tag in soup.select('img[src]'):
        print(img_tag.attrs['src'])


if __name__ == '__main__':
    main()

运行上面的程序会发现没有任何的输出，因为页面的HTML代码上根本找不到<img>标签。接下来我们使用Selenium来获取到页面上的动态内容，再提取主播图片。

from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys


def main():
    driver = webdriver.Chrome()
    driver.get('https://v.taobao.com/v/content/live?catetype=704&from=taonvlang')
    soup = BeautifulSoup(driver.page_source, 'lxml')
    for img_tag in soup.body.select('img[src]'):
        print(img_tag.attrs['src'])


if __name__ == '__main__':
    main()

在上面的程序中，我们通过Selenium实现对Chrome浏览器的操控，如果要操控其他的浏览器，可以创对应的浏览器对象，例如Firefox、IE等。