美文网首页程序员
python爬虫--获取网页图片

python爬虫--获取网页图片

作者: chcvn | 来源:发表于2017-10-23 21:13 被阅读0次

源码:

    
import urllib.request
import urllib.parse
import os

def url_open(url):
    req = urllib.request.urlopen(url)
    response = urllib.request.urlopen(url)

    html = response.read()

    return html

def get_page(url):
    html = url_open(url).decode('utf-8')

    a = html.find('current-comment-page')+23
    b = html.find(']',a) 

    
    return html[a:b]
    
def find_imgs(url):
    html = url_open(url).decode('utf-8')
    img_addrs = []

    a = html.find('img src=')
    
    while a!=-1:
        b = html.find('.jpg',a,a+255)
        if b!=-1:
            img_addrs.append(html[a+9:b+4])
        else:
            b = a + 9

        a = html.find('img src=',b)

    return img_addrs;

    
def save_imgs(folder,img_addrs):
    
    for each in img_addrs:
        filename = each.split('/')[-1]
        if os.path.exists(filename):
            break
        else:
            with open(filename,'wb') as f:
                img = url_open('http:'+each)
                f.write(img)


def download_mm(folder='ooxx',pages=10):
    #os.mkdir(folder)

    os.chdir(folder)

    url = 'https://jandan.net/ooxx/'

    page_num = int(get_page(url))

    for i in range(page_num):
        page_num -= 1
        if page_num!=0:
            page_url = url + 'page-' + str(page_num) + '#comments'
            img_addrs = find_imgs(page_url)
            save_imgs(folder,img_addrs)

if __name__ == '__main__':
    download_mm()

本人今天试了一下,还不错!

注意: 必须得有Python的运行环境!
在运行的时候,必须 在程序的下面 建一个 ooxx 的文件夹!

相关文章

  • python爬虫--获取网页图片

    源码: 本人今天试了一下,还不错! 注意: 必须得有Python的运行环境!在运行的时候,必须 在程序的下面 建一...

  • Python爬虫 简谱网-简谱

    Python爬虫 简谱网-简谱 爬取步骤 request库获取网页,找到规律,循环获取 正则表达式获取简谱图片链接...

  • python下载动漫图片

    如何用python写一个爬虫,下载某论坛的动漫图片 实现过程 获取网页内容 分析内容中的信息,提取需要的链接 获取...

  • 用Python爬虫爬了猫眼TOP100电影后,我发现了……

    通常来说,实现一个爬虫分三个步骤: 1 获取网页 爬虫就是爬取网页上的内容,首先获取网页内容,比如文本、图片、视频...

  • Python 爬虫第一篇(urllib+regex)

    爬虫的主要用途即从网站上获取网页,并将网页中的有用信息解析出来。从网站上获取网页内容可以通过 python 内置的...

  • Python简单爬虫 - 正则表达式

    Python爬虫快速上手,使用正则表达式匹配出网页中图片的URL,实现网页图片的批量下载: 007 - Pytho...

  • Python爬虫入门

    获取图片并存入文件夹中 利用有道翻译 Python爬虫将煎蛋网上的图片全部下载到本地 Python爬虫将贴吧上的图...

  • Python之Instagram图片爬虫(二)

    上回我们讲到了基础的图片的URL的获取——Python之Instagram图片爬虫(一),这回将要讲的就是获取加载...

  • Requests库基本使用

    requests是python实现的最简单易用的HTTP库,建议爬虫使用requests 获取某个网页 各种请求 ...

  • 小白学爬虫系列-基础-准备工作

    Python版本3.8.0,开发工具:Pycharm 爬虫流程: 1. 获取网页url(网址) url:统一资源定...

网友评论

    本文标题:python爬虫--获取网页图片

    本文链接:https://www.haomeiwen.com/subject/ykkzuxtx.html