美文网首页
python爬虫抓取图片

python爬虫抓取图片

作者: yunqing_71 | 来源:发表于2019-03-03 23:26 被阅读0次

    hello,大家好,今天突然对python爬取数据感兴趣,简单学习了一下,抄袭了一个小程序,总结一下,不要见笑哦,因为23点23了,再不发简书就断更了,所以本人先行上来啰嗦一番,不过,关于学习python安装,IDE选用,第三方库安装稍后更到此文章中。
    哈哈~~


    timg.jpg

    首先关于python为什么这么火,那谁知道,不解释~~
    既然火起来了,咱们就要凑凑热闹,学上一些总是没错的~~
    python使用之前貌似要下载一个东东 python官网传送门https://www.python.org/
    本人选择的是 Downloads windows

    image.png
    肯定毅然决然3.x版本
    image.png
    英文不好的我再次懵了~~下载哪个好呢????
    image.png image.png

    找到具体什么意思了


    image.png

    这里我选的在线安装版,贼慢,等了一个多小时,建议用第二个安装板吧,勾选上path自动配置环境变量。

    然后IDE我选的JB公司的Pycharm,具体安装步骤不再赘述。
    这里我还安装了一个第三方库,如果需要那个一个个安装太麻烦,https://www.anaconda.com/这个第三方库包含了经常用到的很多的库,所以我就安装了。

    效果:


    image.png
    import urllib.request
    import re
    import os
    import urllib
    
    
    def get_html(url):
        page = urllib.request.urlopen(url)
        html_a = page.read()
        return html_a.decode('utf-8')
    
    
    def get_img(html):
        reg = r'https://[^\s]*?\.jpg'
        imgre = re.compile(reg)  # 转换成一个正则对象
        imglist = imgre.findall(html)  # 表示在整个网页过滤出所有图片的地址,放在imgList中
        x = 0        # 声明一个变量赋值
        path = 'E:\\lianxi\\mypic\\test'  # 设置图片的保存地址
        if not os.path.isdir(path):
            os.makedirs(path)  # 判断没有此路径则创建
        paths = path + '\\'  # 保存在test路径下
        for imgurl in imglist:
            urllib.request.urlretrieve(imgurl, '{0}{1}.jpg'.format(paths, x))  # 打开imgList,下载图片到本地
            x = x + 1
            print('图片开始下载,注意查看文件夹')
        return imglist
    
    
    html_b = get_html("https://tieba.baidu.com/p/6055320747")  # 获取该网页的详细信息
    print(get_img(html_b))  # 从网页源代码中分析下载保存图片
    
    

    相关文章

      网友评论

          本文标题:python爬虫抓取图片

          本文链接:https://www.haomeiwen.com/subject/gkyvuqtx.html