大二学生看到班级群老斗图！他爬了十万张表情包！获得称号斗图帝

大二学生看到班级群老斗图！他爬了十万张表情包！获得称号斗图帝

作者: 919b0c54458f | 来源:发表于2018-07-17 16:03 被阅读20次

大二学生看到班级群老斗图！他爬了十万张表情包！获得称号斗图帝
Python爬虫教程【12】：斗图啦表情包多线程爬取
Python爬虫入门【12】：斗图啦表情包多线程爬取
Python爬虫入门教程第十三讲：斗图啦表情包多线程爬取
python爬取表情包
过年回家少喝酒多斗图，10款斗图神器让你斗图不会输
烂大街的表情包，太没新意了！我选择自己做一个！
无标题文章
斗不过图？几个表情包小程序了解一下
实用技术分享；程序猿斗图会输给谁？

爬图片比爬文字数据要好玩得多了，但是由于图片比文字所占内存更大，所以所耗的时间会多一些，因此可以尝试使用多线程爬虫来爬取网站的图片。

再来看看页面页码的元素：

要获取的是总页面数1690，则找到下图它的定位元素：

用BeautifulSoup的css路径选择器根据它的css路径定位：

分析完了就可以写代码了。整理下思路，由于python的线程数量有限，大概最多也只能有1000个左右的线程。

在我的代码中，每次爬10页(用了10个线程)，每一页里有68张图片(用68个线程)，所以一共680个线程。总共有1690页，114920张图片，创建10万个线程是不可能的了。所以便用这680个线程去爬这11多万张图片。每次爬10页，分169次爬完。

这些图片中有一些图是gif图，gif图就不爬了，所以在获取图片链接的时候只获取jpg结尾的链接。除去gif图我们要爬的图片大概有9万多张。

程序执行过程的截图：

程序执行到最后，会再次下载之前下载失败的图片，重新成功下载了3张，有4张还是下载失败了。一共爬了91667张，用时2757s，也就是46分钟就爬完了，在白天测得的这个速度还是可以的，若是在晚上校园网渣网速超级慢的情况下，经过测试得花上2个小时。

查看记录失败信息的txt文件：

看看爬到的图片：

再放一张比较应景的图：

最后放全部的代码：

把程序中的.jpg改成.gif就能爬取gif动图啦~

进群：125240963 即可获取数十套PDF哦！要源码也私信吧！

相关文章

大二学生看到班级群老斗图！他爬了十万张表情包！获得称号斗图帝
爬图片比爬文字数据要好玩得多了，但是由于图片比文字所占内存更大，所以所耗的时间会多一些，因此可以尝试使用多线程爬虫...
Python爬虫教程【12】：斗图啦表情包多线程爬取
斗图啦表情包多线程爬取-写在前面发现好多人写爬虫都在爬取一个叫做斗图啦的网站，里面很多表情包，然后瞅了瞅，各种实...
Python爬虫入门【12】：斗图啦表情包多线程爬取
斗图啦表情包多线程爬取-写在前面发现好多人写爬虫都在爬取一个叫做斗图啦的网站，里面很多表情包，然后瞅了瞅，各种实...
Python爬虫入门教程第十三讲：斗图啦表情包多线程爬取
斗图啦表情包多线程爬取-写在前面今天在CSDN博客，发现好多人写爬虫都在爬取一个叫做斗图啦的网站，里面很多表情包...
python爬取表情包
从斗图啦网站爬取表情包 import requestsfrom lxml import etreeimport t...
过年回家少喝酒多斗图，10款斗图神器让你斗图不会输
1. 斗图表情包神器斗图表情包轻松制作最硬最low最抢眼的表情包。使用斗图表情包神器，斗图永远不会输。Gif 动...
烂大街的表情包，太没新意了！我选择自己做一个！
哈喽大家好~今天我们来个好玩的教程，做属于自己的表情包。所谓表情包，斗图时方恨少啊！如果做个自己的表情包，斗图的时...
无标题文章
一些话斗图源于表情，高于表情；斗图具有表情的一部分特质，表情通常不具备斗图的特质；信息清晰：文字<文字+表情...
斗不过图？几个表情包小程序了解一下
现在很多人用微信已经不是在聊天了，都是在斗图，在各种微信群一言不合就开启斗图模式，像这样几乎要变成能用表情包说的...
实用技术分享；程序猿斗图会输给谁？
斗图了解一下？一、分析表情包网址 1、进入斗图啦网址，点击“最新表情”，再点击第二、第三页，得出规律如下：第一...

网友评论

九五二六:就你牛逼

大数据爬虫Python AI Sql

本文标题：大二学生看到班级群老斗图！他爬了十万张表情包！获得称号斗图帝

本文链接：https://www.haomeiwen.com/subject/qfhgpftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

大数据爬虫Python AI Sql

热点阅读

大数据爬虫Python AI Sql

关于我们|服务条款|联系我们|大二学生看到班级群老斗图！他爬了十万张表情包！获得称号斗图帝|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！