python爬取表情包

作者: Jupiter_19 | 来源:发表于2019-03-13 15:55 被阅读52次

    这几日在知乎上看到个话题—有哪些沙雕表情包。就想着利用Python把图片保存到本地而非手动下载。然而尝试一下后发现,知乎已经不让第三方爬虫工具抓取了。于是就换了豆瓣里的一个网页:https://www.douban.com/group/topic/128794851/。成功实现了爬取表情包。

    爬取结果 全部代码

    作为一个学数学的人,平时不会去使用re、request等网页的库。大概梳理一下代码思路。

    1. 获取网页源代码,即右键查看源码(我没学过html语言,所以也看不太懂)。
    url = 'https://www.douban.com/group/topic/128794851/'
    data = requests.get(url).text
    
    网页源码
    1. 获取图片的url。大概看一下源码内容,能发现表情包的url位于‘img src=’和‘width’之间,处理一下文本内容,即可得到全部表情包的url了。
    fir = re.findall(r'img src=".*?" width', data)
    fir = str(fir).replace('img src="','').replace('" width','')
    fir = fir.split(',')[0:-1]
    
    1. 保存图片到本地文件夹。
    response = requests.get(url)
    img_data = response.content
    image = Image.open(BytesIO(img_data))
    image.save(img_path)
    

    相关文章

      网友评论

        本文标题:python爬取表情包

        本文链接:https://www.haomeiwen.com/subject/gcftmqtx.html