美文网首页
python+selenium采集动态加载(懒加载)的页面内容

python+selenium采集动态加载(懒加载)的页面内容

作者: 乂尤先生 | 来源:发表于2020-11-10 15:58 被阅读0次

    前言

    有些网站使用了懒加载技术:只有在浏览器中纵向滚动条滚动到指定的位置时,页面的元素才会被动态加载。注意,在加载之前,selenium的page_source是不会包含该页面的内容,page_source只包含加载出来的页面内容。那么如何实现加载全部内容,就需要模拟人滚动滚动条的行为,实现页面加载

    代码如下:

    from selenium import webdriver
    import time
    
    driver_path = r"E:\chromedriver.exe"
    
    def get_brower():
        #创建浏览器驱动
        chrome_options = webdriver.ChromeOptions()
        chrome_options.add_argument("--start-maximized")
        browser = webdriver.Chrome(executable_path=driver_path, options=chrome_options)
        time.sleep(3)
        return browser
    def drop_down(url,browser):
        #加载界面
        browser.get(url)
        #获取页面高度
        height = browser.execute_script("return action=document.body.scrollHeight")
        #将滚动条调到页面底部
        browser.execute_script("window.scrollTo(0,document.body.scrollHeight)")
        time.sleep(5)
        #定义一个初始时间戳
        t1 = int(time.time())
        num = 0
        while True:
            #获取当前的时间戳
            t2 = int(time.time())
            # 判断时间初始时间戳和当前时间戳相差是否大于30秒,小于30秒则下拉滚动条
            if t2 - t1 < 30:
                new_height = browser.execute_script("return action=document.body.scrollHeight")
                if new_height > height:
                    time.sleep(1)
                    browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
                    # 重置初始页面高度
                    height = new_height
                    # 重置初始时间戳,重新计时
                    t1 = int(time.time())
            elif num < 3:  # 当超过30秒页面高度仍然没有更新时,进入重试逻辑,重试3次,每次等待20秒
                time.sleep(20)
                num = num + 1
            else:  # 超时并超过重试次数,程序结束跳出循环,并认为页面已经加载完毕!
                print("滚动条已经处于页面最下方!")
                # 滚动条调整至页面顶部
                browser.execute_script('window.scrollTo(0, 0)')
                break
    if __name__ == '__main__':
        browser = get_brower()
        url = "https://www.iqiyi.com/"
        drop_down(url,browser)
    

    相关文章

      网友评论

          本文标题:python+selenium采集动态加载(懒加载)的页面内容

          本文链接:https://www.haomeiwen.com/subject/jqejbktx.html