美文网首页程序员
爬虫系列——使用scrapy爬取伯乐网文章

爬虫系列——使用scrapy爬取伯乐网文章

作者: 海贼王_浩 | 来源:发表于2017-07-11 11:29 被阅读0次

    上一节,我们创建了一个scrapy项目,下面剪短的介绍一下scrapy的结构,并着手编写一个小爬虫!

    小爬虫:http://python.jobbole.com/category/guide/的所有分页里面带"爬虫"的系列文章

    先来说说scrapy项目的目录结构啦,直接上图:

    爬虫项目目录结构图

    我的项目名是bolecategory,下面的文件一一介绍一下:

    spiders文件夹:这个是专门写爬虫主类的文件夹

    categoryspider.py文件就是主要的爬虫类

    items.py文件是一个简单的容器,专门用来保存了爬取到得数据,类似我们的实体

    middlewares.py文件目前没用到

    pipelinies.py文件是对爬取的Item做处理的,比如保存到数据库之类的

    settings.py是一系列的配置信息,比如目前使用哪个pipelines啊,默认请求头啊之类的

    好了,剪短介绍完毕,下面开始编写我们的爬虫吧!

    首先通过页面分析,查找我们要爬取的目标位置:

    页面元素查看

    页面清晰,就是一个a标签,class属性为archive-title。

    categoryspider.py文件编写爬虫类categoryspider继承scrapy.spider,主要逻辑如下:

    爬虫主类

    好了,下一页轮训调用parse方法,并且只对包含"爬虫"字符串的标题进行爬取,拿到数据后,对数据进行保存吧,保存写到pipelines.py中,代码如下:

    保存到mysql

    最终使用命令执行爬虫:scrapy runspider bolecategory/spiders/categoryspider.py

    查看数据库运行结果:

    结果查看

    好了,爬虫结束!

    相关文章

      网友评论

        本文标题:爬虫系列——使用scrapy爬取伯乐网文章

        本文链接:https://www.haomeiwen.com/subject/mkiphxtx.html