Python爬虫-豆瓣美女图

作者: wangjun | 来源:发表于2018-09-20 15:38 被阅读33次

Python爬虫-豆瓣美女图
Python学习
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存
python爬取百万美女图片并进行打分，你想知道谁最美吗？
Python爬虫之爬取豆瓣美女图
Python学习
python爬取性感美女图片
python爬虫实战之美女图
豆瓣爬虫实践-python版
python接入百度AI 人脸识别爬虫获取美女图片并打分（附

初识Python，本章主要做一下学习记录，如有错误，欢迎斧正

老司机发车了😊

爬虫步骤:

确定爬取目标
分析页面
抓取页面内容，解析目标字段
保存目标

1. 确定爬取目标

如题，今天需要爬取豆瓣美女图片，也就是这个页面

2. 分析页面

打开页面，分析页面元素，如图方法，可以得出需要下载的图片，在<img>标签里可以找到

分析

3. 抓取、解析

这里使requests库做网络请求，使用BeautifulSoup做解析

print('正在抓去取:'+page)
page_response = requests.get(page)
# 判断请求是否成功
if page_response.status_code == 200:
    # soup 解析html文件
    soup = BeautifulSoup(page_response.text,features='html.parser')
    # 获取html中的所有img标签内容
    images = soup.find_all('img')
    for img in images:
        # 获取img标签中的src标签
        image_url = img.get('src')

4. 下载保存

单纯的文件io，想具体了解可以看这里

print('正在下载:'+link)
global page_index
page_index += 1
image_response = requests.get(link)
# 先判断是否有图，下载保存就是单纯的文件写入
if image_response.status_code == 200:
    with open('./images/{}.jpg'.format(str(page_index)), 'wb') as f:
        f.write(image_response.content)