爬取豆瓣验证码

作者: 没有车胎的战车 | 来源:发表于2017-11-04 15:18 被阅读0次

爬取豆瓣验证码
爬虫代码集
Node puppeteer 爬虫
2019-04-29
爬虫案例
Python爬取豆瓣电影TOP250
scrapy爬取豆瓣电影
Python学习
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存
node.js一个爬虫实例

Python库
- requests
- urllib
- BeautifulSoup
- time
目标
- 豆瓣主页验证码100个
时间
- 1h
问题
- 降低爬取速度
伪代码
- 打开豆瓣主页
- Chrome定位验证码位置
- 分析HTML结构
- 提取验证码链接
- 保存链接+下载验证码+命名验证码
- 刷新豆瓣主页
- 重复以上步骤

实现代码

   # -*- coding: utf-8 -*-
  """
  Created on Sat Nov  4 14:45:13 2017

  @author: Howin

  爬取豆瓣验证码
  """

  import requests
  from bs4 import BeautifulSoup
  import urllib
  import time

  headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'}

  for n in range(1,101):
      url = 'https://www.douban.com'
      r = requests.get(url, headers = headers)
      soup = BeautifulSoup(r.text, 'html.parser')
      captcha_url = soup.find('img', id = 'captcha_image')['src']
       captcha_name = 'D:/Dairly/Code/PY/爬取豆瓣/爬取数据/豆瓣验证码/captcha_{}.jpg'
       captcha_name = captcha_name.format(n)
      urllib.request.urlretrieve(captcha_url,captcha_name)
      time.sleep(1)

网友评论

本文标题：爬取豆瓣验证码

本文链接：https://www.haomeiwen.com/subject/qawfmxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

爬取豆瓣验证码

相关文章

爬取豆瓣验证码

爬虫代码集

Node puppeteer 爬虫

2019-04-29

爬虫案例

Python爬取豆瓣电影TOP250

scrapy爬取豆瓣电影

Python学习

Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存

node.js一个爬虫实例

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python语言与信息数据获取和机器学习

大数据爬虫Python AI Sql