美文网首页
selenium+re爬虫实战(二)

selenium+re爬虫实战(二)

作者: 阿尼奥赛哟 | 来源:发表于2020-05-14 14:21 被阅读0次

    1. 观察网页面规律

    2. 缺点是爬取速度比较慢,如果想要高速爬虫可以去学scrapy异步爬虫框架

    3. 在上一个文档的基础上增加了翻页功能

    from seleniumimport webdriver

    import re

    chrome_options=webdriver.ChromeOptions()

    chrome_options.add_argument("--headless")

    driver= webdriver.Chrome('C:\\chromedriver.exe',options=chrome_options)

    driver.get("http://www.cnblogs.com/yoyoketang/default.html?page=1")

    patter= re.compile(r'<a class="postTitle2" href=".*?">\s(.*?)</a>'

                          r'.*?<div class="c_b_p_desc">(.*?)</div>',re.S)

    while True:

      try:

          page=driver.page_source

         subtitle=patter.findall(page)

         print(subtitle)

         driver.find_element_by_link_text("下一页").click()

    except Exception as e:

          print(e)

          break 

    相关文章

      网友评论

          本文标题:selenium+re爬虫实战(二)

          本文链接:https://www.haomeiwen.com/subject/ahcnnhtx.html