欢迎点击右上角关注小编,除了分享技术文章之外还有很多福利,私信学习资料可以领取包括不限于Python实战演练、PDF电子文档、面试集锦、学习资料等。
前言
每一个学习Python,并且想要学习爬虫的小伙伴,心中肯定是想要爬取一些颜值高的图片,你问我为什么这么喜欢学习爬虫,我只想说:爬取这些图片以及电影才是我学习Python的最大的动力!
爬虫的基本流程
流程解释:
1.分析要爬取的网址,发现页面分两级,第一级是多个图片集的入口,第二集是图片的入口。我们新建两个类,一个类是爬取所有图片集的url,一个类是根据得到的图片集的url爬取图片下载下来。第二个类的功能就跟我们上篇爬取煎蛋的功能一样。
2.我们考虑用多线程去实现爬虫,为此我们引入了Queue模块,主线程爬取第一级得到多个图片集url放入到queue中,新建多个线程,从queue中取出数据,然后下载图片!
3.遇到的困难呢 万恶的编码坑,要注意规避可能出现的错误 因为出现问题 线程就会死掉。
这篇正则啥的就不搞了,其实都很简单的,对于html分析python有一些库是比较不错的,比如Beautiful Soup 有机会再学习学习!还有爬虫框架Scrapy。。。要学习的东西还非常非常多啊。务必脚踏实地!!!
完整代码
不过这个网站不需要代理了。。。下面看看成果吧,一波妹子图正在袭来:
网友评论