爬取豆瓣验证码

作者: 没有车胎的战车 | 来源:发表于2017-11-04 15:18 被阅读0次
  • Python库

    • requests
    • urllib
    • BeautifulSoup
    • time
  • 目标

    • 豆瓣主页验证码100个
  • 时间

    • 1h
  • 问题

    • 降低爬取速度
  • 伪代码

    • 打开豆瓣主页
    • Chrome定位验证码位置
    • 分析HTML结构
    • 提取验证码链接
    • 保存链接+下载验证码+命名验证码
    • 刷新豆瓣主页
    • 重复以上步骤
  • 实现代码

       # -*- coding: utf-8 -*-
      """
      Created on Sat Nov  4 14:45:13 2017
    
      @author: Howin
    
      爬取豆瓣验证码
      """
    
      import requests
      from bs4 import BeautifulSoup
      import urllib
      import time
    
      headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'}
    
      for n in range(1,101):
          url = 'https://www.douban.com'
          r = requests.get(url, headers = headers)
          soup = BeautifulSoup(r.text, 'html.parser')
          captcha_url = soup.find('img', id = 'captcha_image')['src']
           captcha_name = 'D:/Dairly/Code/PY/爬取豆瓣/爬取数据/豆瓣验证码/captcha_{}.jpg'
           captcha_name = captcha_name.format(n)
          urllib.request.urlretrieve(captcha_url,captcha_name)
          time.sleep(1)

相关文章

  • 爬取豆瓣验证码

    Python库requestsurllibBeautifulSouptime 目标豆瓣主页验证码100个 时间1h...

  • 爬虫代码集

    一、简单爬取猫眼(使用字符串) 二、简单爬取豆瓣(使用XPATH) Beautiful Soup爬取

  • Node puppeteer 爬虫

    puppeteer 中文文档 开始 爬取豆瓣书籍列表 豆瓣读书 在这个页面输入javascript,然后爬取列表案...

  • 2019-04-29

    爬取今日头条 街拍数据---反爬策略滑动验证码 爬取的主页:https://www.toutiao.com/sea...

  • 爬虫案例

    实战巩固 爬取搜狗指定页面的数据-待完成 爬取破解百度翻译 爬取豆瓣电影分类排行榜 爬取肯德基餐厅查询地址 爬取国...

  • Python爬取豆瓣电影TOP250

    爬取目标 爬取豆瓣电影TOP250信息并简单分析 爬取网址为https://movie.douban.com/to...

  • scrapy爬取豆瓣电影

    scrapy爬取豆瓣电影,存储在MongoDB 本节分享用的Scrapy爬取豆瓣电影Top250的实战。 本节要实...

  • Python学习

    python爬虫(五) python爬虫爬取豆瓣电影Top250数据 利用python爬取豆瓣电影TOP250页面...

  • Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存

    Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存 目的 采用python爬虫爬取豆瓣电影Top25...

  • node.js一个爬虫实例

    爬取豆瓣top250 测试

网友评论

    本文标题:爬取豆瓣验证码

    本文链接:https://www.haomeiwen.com/subject/qawfmxtx.html