美文网首页知了·IT程序员@IT·互联网
Scrapy爬虫框架:Selenium + PhantomJS

Scrapy爬虫框架:Selenium + PhantomJS

作者: Carltony | 来源:发表于2017-03-16 11:33 被阅读1515次

    之前说了,我们直接抓取出来的网页是静态的,并不能获取到动态内容,可以通过selenium来实现动态内容获取。

    概念解释

    Selenium 是一个测试工具,测试直接在浏览器中运行,就像真实用户所做的一样,所以可以模拟浏览器访问页面下载js内容和ajax内容,支持很多浏览器:

    • Google Chrome
    • Internet Explorer 7, 8, 9, 10, 11
    • Firefox
    • Safari
    • Opera
    • HtmlUnit
    • PhantomJS
    • Android
    • iOS

    PhantomJS是一个没有界面的浏览器,为什么使用这个呢,因为这样不用再打开一个浏览器了,是在背后运行,其实速度和其他浏览器是差不多的,某些情况下还不如其他浏览器速度快。

    安装

    Selenium官网
    pip install selenium
    至于webdriver下载,对应的浏览器有不一样的下载地方,这个自己去找,提供一个Chrome Driver的下载地址:Chrome Driver

    使用

    self.driver = webdriver.PhantomJS()
    self.driver.get(response.url)
    selector = Selector(text=self.driver.page_source)
    

    webdriver可以设置成多种,例如Chrome:

    webdriver.Chrome("/Users/Carlton/chromedriver") # 构造参数是下载的ChromeDriver路径
    

    这样我们就通过浏览器(PhantomJS可以理解成没有界面的浏览器)来下载了,下载完成的网页源代码通过driver.page_source获取。
    提一下这个Selector,拿到源代码后需要分析网页的内容,通过Selector就很简单,推荐使用Selector而不是driver提供的xpath工具,因为很多时候driver提供的工具并不能按照预期运行。

    项目实例

    import json
    
    from scrapy import Request
    from scrapy import Selector
    from scrapy.crawler import CrawlerProcess
    from scrapy.spiders import Spider
    from scrapy.utils.project import get_project_settings
    from selenium.webdriver.support.wait import WebDriverWait
    from selenium import webdriver
    
    
    class TmallAndTaoBaoSpider(Spider):
        name = "tts"
        allowed_domains = ['tmall.com', 'taobao.com']
        start_urls = []
        total_items = 0
    
        def __init__(self, *args, **kwargs):
            super(TmallAndTaoBaoSpider, self).__init__(*args, **kwargs)
            self.count = 0
            self.error_count = 0
            if keys is None or dt is None:
                return
            self.driver = webdriver.Chrome("/Users/Carlton/chromedriver")
            url = "https://s.taobao.com/search?q=硬盘&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&style=list"
            self.start_urls.append(url)
    
        def __del__(self):
            if self.driver is not None:
                self.driver.quit()
    
        def parse(self, response):
            return self._parse_handler(response)
    
        def _parse_handler(self, response):
            self.driver.get(response.url)
            selector = Selector(text=self.driver.page_source)
            pass
    

    解释一下,__init__初始化了webdriver,等下用这个来下载动态地址,还初始化了start_urls这个地址是用浏览器访问淘宝搜索拷贝出来的,这里我们搜索硬盘。需要注意的是parse必须返回Item或者Requestself.driver.get(response.url)抓取数据后,通过self.driver.page_source来获取动态的内容。这样爬虫开始后就会启动chrome浏览器,然后开始下载淘宝数据。

    总结

    这一篇写了,Selenium 和 PhantomJS等结合起来抓取动态数据。selenium是一个前端自动化测试工具,可以通过它来连接很多浏览器,通过webdriver连接的浏览器,然后把浏览器访问下载的内容通过selenium返回给Scrapy。

    上一篇:Scrapy爬虫框架:安装和开始新项目
    下一篇:Scrapy爬虫框架:抓取淘宝天猫数据

    😊查看更多😊

    不登高山,不知天之高也;不临深溪,不知地之厚也
    感谢指点、交流、喜欢

    相关文章

      网友评论

        本文标题:Scrapy爬虫框架:Selenium + PhantomJS

        本文链接:https://www.haomeiwen.com/subject/whbdnttx.html