美文网首页Python小哥哥虫虫
Python个性化面向对象分类爬虫

Python个性化面向对象分类爬虫

作者: 我爱学python | 来源:发表于2019-03-31 15:59 被阅读20次

    摘要:有意想整个图片采集站,有了这个想法接下来就是实践了,空间域名啥的都买了,今天写的这个是采集美图网站的

    环境:Windows

    工具:PyCharm

    版本:Python3.6

    模块:requests、lxml、pymysql、time

    我们会在首页、列表页、分类页、内容页多次用到requests.get()方法,所以简单的封装一下

    is_xpath用来区分直接返回网页源码还是返回经过处理的直接用xpath匹配的。

    因为多个地方要把数据入库所以封装个数据插入的方法:

    More来区分是插入一条还是插入多条。

    因为分类很多,每个分类下的页数也很多,所以打算分开来抓,那么我们就按输入的分类和页数来执行爬虫

    在spider类中,定义了choicCate()方法,此方法就是让用户开输入分类和页数的,只做了对分类错误的处理,其中10代表了现在的10个分类,

    在这里我没有去做错误次数的限制,想加的可以加上。下面是choicCate()方法:

    run()就是我们的主函数了,根据用户输入的分类和页数执行爬虫

    getInfo()方法获取分类下所有的缩略图和名称和内容页链接,获取到后存入mysql,根据内容页链接继续获取所有内容页的的图片

    getInfoImages()方法就是来获取内容页详情图并存入mysql的

    因为在分类页没有显示tags标签,只有在内容详情页才有,所有还需要更新下之前的表,updateSQL()就是这个功能,下面我们看看执行的效果吧,效果如下:

    相关文章

      网友评论

        本文标题:Python个性化面向对象分类爬虫

        本文链接:https://www.haomeiwen.com/subject/xfcubqtx.html