摘要:有意想整个图片采集站,有了这个想法接下来就是实践了,空间域名啥的都买了,今天写的这个是采集美图网站的
环境:Windows
工具:PyCharm
版本:Python3.6
模块:requests、lxml、pymysql、time
我们会在首页、列表页、分类页、内容页多次用到requests.get()方法,所以简单的封装一下
is_xpath用来区分直接返回网页源码还是返回经过处理的直接用xpath匹配的。
因为多个地方要把数据入库所以封装个数据插入的方法:
More来区分是插入一条还是插入多条。
因为分类很多,每个分类下的页数也很多,所以打算分开来抓,那么我们就按输入的分类和页数来执行爬虫
在spider类中,定义了choicCate()方法,此方法就是让用户开输入分类和页数的,只做了对分类错误的处理,其中10代表了现在的10个分类,
在这里我没有去做错误次数的限制,想加的可以加上。下面是choicCate()方法:
run()就是我们的主函数了,根据用户输入的分类和页数执行爬虫
getInfo()方法获取分类下所有的缩略图和名称和内容页链接,获取到后存入mysql,根据内容页链接继续获取所有内容页的的图片
getInfoImages()方法就是来获取内容页详情图并存入mysql的
因为在分类页没有显示tags标签,只有在内容详情页才有,所有还需要更新下之前的表,updateSQL()就是这个功能,下面我们看看执行的效果吧,效果如下:
网友评论