美文网首页
python+selenium采集动态加载(懒加载)的页面内容

python+selenium采集动态加载(懒加载)的页面内容

作者: 乂尤先生 | 来源:发表于2020-11-10 15:58 被阅读0次

前言

有些网站使用了懒加载技术:只有在浏览器中纵向滚动条滚动到指定的位置时,页面的元素才会被动态加载。注意,在加载之前,selenium的page_source是不会包含该页面的内容,page_source只包含加载出来的页面内容。那么如何实现加载全部内容,就需要模拟人滚动滚动条的行为,实现页面加载

代码如下:

from selenium import webdriver
import time

driver_path = r"E:\chromedriver.exe"

def get_brower():
    #创建浏览器驱动
    chrome_options = webdriver.ChromeOptions()
    chrome_options.add_argument("--start-maximized")
    browser = webdriver.Chrome(executable_path=driver_path, options=chrome_options)
    time.sleep(3)
    return browser
def drop_down(url,browser):
    #加载界面
    browser.get(url)
    #获取页面高度
    height = browser.execute_script("return action=document.body.scrollHeight")
    #将滚动条调到页面底部
    browser.execute_script("window.scrollTo(0,document.body.scrollHeight)")
    time.sleep(5)
    #定义一个初始时间戳
    t1 = int(time.time())
    num = 0
    while True:
        #获取当前的时间戳
        t2 = int(time.time())
        # 判断时间初始时间戳和当前时间戳相差是否大于30秒,小于30秒则下拉滚动条
        if t2 - t1 < 30:
            new_height = browser.execute_script("return action=document.body.scrollHeight")
            if new_height > height:
                time.sleep(1)
                browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
                # 重置初始页面高度
                height = new_height
                # 重置初始时间戳,重新计时
                t1 = int(time.time())
        elif num < 3:  # 当超过30秒页面高度仍然没有更新时,进入重试逻辑,重试3次,每次等待20秒
            time.sleep(20)
            num = num + 1
        else:  # 超时并超过重试次数,程序结束跳出循环,并认为页面已经加载完毕!
            print("滚动条已经处于页面最下方!")
            # 滚动条调整至页面顶部
            browser.execute_script('window.scrollTo(0, 0)')
            break
if __name__ == '__main__':
    browser = get_brower()
    url = "https://www.iqiyi.com/"
    drop_down(url,browser)

相关文章

  • python+selenium采集动态加载(懒加载)的页面内容

    前言 有些网站使用了懒加载技术:只有在浏览器中纵向滚动条滚动到指定的位置时,页面的元素才会被动态加载。注意,在加载...

  • 音视频之视频采集

    视频采集 AVFoundation 完成视频采集,做个笔记吧. 初始化页面布局 懒加载需要用的对象 下面是懒加载的...

  • Web 体验优化中和图有关的那些事

    什么是懒加载? 只加载可视区的内容,当页面向下滚动时,再继续加载后面的内容。 图片懒加载的原理其实非常简单,我们先...

  • 图片懒加载和预加载

    图片懒加载的原理是什么? 首先明白为什么要懒加载: 懒加载即延迟,对于图片过多的页面,为了加快页面加载速度,我们需...

  • 前端图片懒加载及节流

    懒加载(lazyload)也叫延迟加载, 惰性加载. 实质是当网页页面滚动到相应的地方,对应位置的内容才进行加载显...

  • PHP页面静态化01

    动态页面与静态页面 动态页面:首先加载动态文件,将动态文件中的内容,如php文件, asp文件等 静态页面:静态的...

  • 懒加载和预加载

    懒加载和预加载 1. 懒加载 1. 什么是懒加载? 懒加载也就是延迟加载 当访问一个页面的时候,先把img元素或是...

  • webpack4.0 懒加载和热更新

    1.懒加载 懒加载我们都知道,不即时加载所有资源,而是在需要的时候才加载。想想有这么一个业务场景,有一个页面,内容...

  • vue懒加载

    什么是懒加载? 懒加载:也叫延迟加载,即在需要的时候进行加载,随用随载。 为什么需要懒加载? 像vue这种单页面应...

  • React拓展2-路由组件的lazyLoad

    lazyLoad懒加载:需要使用的时候再进行加载 当未使用懒加载时,页面一打开,就将所有的路由组件给加载到页面了 ...

网友评论

      本文标题:python+selenium采集动态加载(懒加载)的页面内容

      本文链接:https://www.haomeiwen.com/subject/jqejbktx.html