美文网首页编程类图书馆大数据 爬虫Python AI Sql
自从我学了Python爬虫之后,群里斗图就没输过

自从我学了Python爬虫之后,群里斗图就没输过

作者: _年少无为 | 来源:发表于2018-09-07 22:24 被阅读191次
    同在一个群三年,自从我学了Python爬虫之后,群里斗图就没输过

    本文要介绍的爬虫是抓取暴走漫画上的GIF趣图,方便离线观看。爬虫用的是Python3.3开发的,主要用到了urllib、request和BeautifulSoup模块。

    一.urllib模块

    提供了从万维网中获取数据的高层接口,当我们用urlopen()打开一个URL时,就相当于我们用Python内建的open()打开一个文件。但不同的是,前者接收一个URL作为参数,并且没有办法对打开的文件流进行seek操作(从底层的角度看,因为实际上操作的是socket,所以理所当然的没办法进行seek操作),而后者接收的是一个本地文件名。

    二.Python的BeautifulSoup模块(可以帮助你实现HTML和XML的解析。)

    先说一下,一般写网页爬虫,即抓取网页的html源码等内容,然后分析,提取相对应的内容。

    这种分析html内容的工作,如果只是普通的正则表达式re模块去一点点匹配的话,对于内容简单点的网页分析,还是基本够用。

    但是对于工作量很大,要解析内容很繁杂的html,那么用re模块,就会发现无法实现,或很难实现。

    而用beautifulsoup模块去帮你实现分析html源码的工作的话,你就会发现,事情变得如此简单,极大地提高了分析html源码的效率。

    注:BeautifulSoup是第三方库,我使用的是bs4。urllib2在python3中被分配到了urllib.request中,文档中的原文如下。
    Note:The urllib2 module has been split across several modules in Python 3 named urllib.requestand urllib.error.
    

    爬虫源码如下:

    # -*- coding: utf-8 -*-
     
    import urllib.request
    import bs4,os
     
    page_sum = 1 #设置下载页数
     
    path = os.getcwd()
    path = os.path.join(path,'暴走GIF')
    if not os.path.exists(path):
     os.mkdir(path) #创建文件夹
     
    url = "http://baozoumanhua.com/gif/year" #url地址
    headers = { #伪装浏览器
     'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'
     ' Chrome/32.0.1700.76 Safari/537.36'
    }
     
    for count in range(page_sum):
     req = urllib.request.Request(
     url = url+str(count+1),
     headers = headers
     )
     print(req.full_url)
     content = urllib.request.urlopen(req).read()
     
     soup = bs4.BeautifulSoup(content) # BeautifulSoup
     img_content = soup.findAll('img',attrs={'style':'width:460px'})
     
     url_list = [img['src'] for img in img_content] #列表推导 url
     title_list = [img['alt'] for img in img_content] #图片名称
     
     for i in range(url_list.__len__()) :
     imgurl = url_list[i]
     filename = path + os.sep +title_list[i] + ".gif"
     print(filename+":"+imgurl) #打印下载信息
     urllib.request.urlretrieve(imgurl,filename) #下载图片
    

    福利来咯

    想要学习Python的同学看过来,超多Python学习资源大合集,多到看不完的那种!今天免费分享!部分内容如下:

    1.入门读物 2.进阶读物 3.Web框架 4.爬虫开发 5.图形图像 6.数据分析 7.机器学习 8.Python环境以及破解版编译器 9.爬虫实战教学视频

    获取方式:Python技术学习交流群:832339352 添加即可免费获取!

    相关文章

      网友评论

        本文标题:自从我学了Python爬虫之后,群里斗图就没输过

        本文链接:https://www.haomeiwen.com/subject/tpmhgftx.html