爬虫系列——使用scrapy爬取伯乐网文章

作者: 海贼王_浩 | 来源:发表于2017-07-11 11:29 被阅读0次

上一节，我们创建了一个scrapy项目，下面剪短的介绍一下scrapy的结构，并着手编写一个小爬虫！

小爬虫：http://python.jobbole.com/category/guide/的所有分页里面带"爬虫"的系列文章

先来说说scrapy项目的目录结构啦，直接上图：

爬虫项目目录结构图

我的项目名是bolecategory，下面的文件一一介绍一下：

spiders文件夹：这个是专门写爬虫主类的文件夹

categoryspider.py文件就是主要的爬虫类

items.py文件是一个简单的容器，专门用来保存了爬取到得数据，类似我们的实体

middlewares.py文件目前没用到

pipelinies.py文件是对爬取的Item做处理的，比如保存到数据库之类的

settings.py是一系列的配置信息，比如目前使用哪个pipelines啊，默认请求头啊之类的

好了，剪短介绍完毕，下面开始编写我们的爬虫吧！

首先通过页面分析，查找我们要爬取的目标位置：

页面元素查看

页面清晰，就是一个a标签，class属性为archive-title。

categoryspider.py文件编写爬虫类categoryspider继承scrapy.spider，主要逻辑如下：

爬虫主类

好了，下一页轮训调用parse方法，并且只对包含"爬虫"字符串的标题进行爬取，拿到数据后，对数据进行保存吧，保存写到pipelines.py中，代码如下：

保存到mysql

最终使用命令执行爬虫：scrapy runspider bolecategory/spiders/categoryspider.py

查看数据库运行结果：

结果查看

好了，爬虫结束！

网友评论

本文标题：爬虫系列——使用scrapy爬取伯乐网文章

本文链接：https://www.haomeiwen.com/subject/mkiphxtx.html

爬虫系列——使用scrapy爬取伯乐网文章