美文网首页
Python爬虫-豆瓣美女图

Python爬虫-豆瓣美女图

作者: wangjun | 来源:发表于2018-09-20 15:38 被阅读33次

    初识Python,本章主要做一下学习记录,如有错误,欢迎斧正

    老司机发车了😊

    爬虫步骤:

    • 确定爬取目标
    • 分析页面
    • 抓取页面内容,解析目标字段
    • 保存目标
    1. 确定爬取目标

    如题,今天需要爬取豆瓣美女图片,也就是这个页面

    2. 分析页面

    打开页面,分析页面元素,如图方法,可以得出需要下载的图片,在<img>标签里可以找到

    分析
    3. 抓取、解析

    这里使requests库做网络请求,使用BeautifulSoup做解析

    print('正在抓去取:'+page)
    page_response = requests.get(page)
    # 判断请求是否成功
    if page_response.status_code == 200:
        # soup 解析html文件
        soup = BeautifulSoup(page_response.text,features='html.parser')
        # 获取html中的所有img标签内容
        images = soup.find_all('img')
        for img in images:
            # 获取img标签中的src标签
            image_url = img.get('src')
    
    4. 下载保存

    单纯的文件io,想具体了解可以看这里

    print('正在下载:'+link)
    global page_index
    page_index += 1
    image_response = requests.get(link)
    # 先判断是否有图,下载保存就是单纯的文件写入
    if image_response.status_code == 200:
        with open('./images/{}.jpg'.format(str(page_index)), 'wb') as f:
            f.write(image_response.content)
    
    PS:

    大致代码就这么点了,剩下的就是不同页面、不同类别的图片分析下载
    爬虫说白了就是页面信息提取,做之前先想想清楚,动起手来就快了

    相关文章

      网友评论

          本文标题:Python爬虫-豆瓣美女图

          本文链接:https://www.haomeiwen.com/subject/rpginftx.html