美文网首页
selenium爬取

selenium爬取

作者: Rain师兄 | 来源:发表于2020-12-01 17:04 被阅读0次

from selenium import webdriver

import time

driver = webdriver.Chrome()

url = 'https://www.soxscc.com/JueDaiShenZhu/643701.html'

for i in range(10):

        driver.get(url)

        content = driver.find_element_by_class_name('content')

# print(content.text)

        title = nextpage = driver.find_element_by_xpath('//*[@id]/div[3]/div[7]/a[3]').text

# print(title)

        nextpage = driver.find_element_by_xpath('//*[@id]/div[3]/div[7]/a[3]').get_attribute('href')

        url = nextpage

with open('绝代神主.txt','a',encoding='utf-8') as fp:

                fp.write('\n'+content.text+'\n\n'+title)

selenium 翻页爬取小说

selenium可以节省时间

这个是selenium爬取斗图啦的图片

import ssl

import time

from urllib import request

from selenium import webdriver

ssl._create_default_https_context = ssl._create_unverified_context

driver = webdriver.Chrome()

url = 'https://www.fabiaoqing.com/search/bqb/keyword/%E6%96%97%E5%9B%BE%E5%95%A6'

driver.get(url)

for i in range(10):

    hrefs = driver.find_elements_by_xpath('//*[@id="bqb"]/div/div/a/img')

for i in hrefs:

        href = i.get_attribute('src')

# print(href)

        name = href.split('/')[-1]

        request.urlretrieve(href,name)

        js = 'window.scrollBy(0,8000)'driver.execute_script(js) 

       nextpage = driver.find_element_by_partial_link_text('下一页')

    nextpage.click()

    time.sleep(.5)

爬取了两百多张张图片

很方便

相关文章

网友评论

      本文标题:selenium爬取

      本文链接:https://www.haomeiwen.com/subject/fgbswktx.html