selenium爬取

作者: Rain师兄 | 来源:发表于2020-12-01 17:04 被阅读0次

Python爬虫实现的微信公众号文章下载器
selenium爬取数据时出现如下错误：selenium.com
selenium爬取
在Scrapy中运用Selenium和Chrome
Scrapy+Selenium+Headless Chrome的
python使用Jieba工具中文分词及文本聚类概念
爬妹子图
工具索引
selenium爬取拉勾
selenium爬取数据

from selenium import webdriver

import time

driver = webdriver.Chrome()

url = 'https://www.soxscc.com/JueDaiShenZhu/643701.html'

for i in range(10):

        driver.get(url)

        content = driver.find_element_by_class_name('content')

# print(content.text)

        title = nextpage = driver.find_element_by_xpath('//*[@id]/div[3]/div[7]/a[3]').text

# print(title)

        nextpage = driver.find_element_by_xpath('//*[@id]/div[3]/div[7]/a[3]').get_attribute('href')

        url = nextpage

with open('绝代神主.txt','a',encoding='utf-8') as fp:

                fp.write('\n'+content.text+'\n\n'+title)

selenium 翻页爬取小说

selenium可以节省时间

这个是selenium爬取斗图啦的图片

import ssl

import time

from urllib import request

from selenium import webdriver

ssl._create_default_https_context = ssl._create_unverified_context

driver = webdriver.Chrome()

url = 'https://www.fabiaoqing.com/search/bqb/keyword/%E6%96%97%E5%9B%BE%E5%95%A6'

driver.get(url)

for i in range(10):

    hrefs = driver.find_elements_by_xpath('//*[@id="bqb"]/div/div/a/img')

for i in hrefs:

        href = i.get_attribute('src')

# print(href)

        name = href.split('/')[-1]

        request.urlretrieve(href,name)

  js = 'window.scrollBy(0,8000)'driver.execute_script(js)

       nextpage = driver.find_element_by_partial_link_text('下一页')

nextpage.click()

    time.sleep(.5)