美文网首页python学习Python爬虫
python爬虫的最佳实践(九)--Scrapy的items和p

python爬虫的最佳实践(九)--Scrapy的items和p

作者: Darkeril | 来源:发表于2016-05-12 18:14 被阅读21410次

    不想当将军的士兵不是好士兵,同理,不想当主程的程序员不是好程序员~

    上一节我们讲了Scrapy的初步用法,我们已经学会了如何创建scrapy工程,如何编写简单的爬虫。

    本节目标

    • 学会Scrapy item的创建及使用
    • 使用Scrapy将抓取到的数据存入json
    • 使用Scrapy Pipeline做数据处理
    • 学会暂停工程与重新开始工程

    代码预览

    • items.py
    class TutorialItem(scrapy.Item):
        # define the fields for your item here like:
        # name = scrapy.Field()
        pass
    
    class xianyuItem(scrapy.Item):
        title = scrapy.Field()
        url = scrapy.Field()
        pass
    
    • pipelines.py
    import pymongo
    
    class TutorialPipeline(object):
        def open_spider(self, spider):
            self.client = pymongo.MongoClient('localhost', 27017)
            self.test = self.client['test']
            self.testData = self.test['testData']
            pass
    
        def process_item(self, item, spider):
            data = {
                'title': item['title'],
                'url': item['url']
            }
            self.testData.insert_one(data)
            return item
    
        def close_spider(self, spider):
            pass
    
    • spider.py
    #coding:utf-8
    import scrapy
    from bs4 import BeautifulSoup
    from ..items import xianyuItem
    
    class testSpider(scrapy.Spider):
        name = 'test'
        start_urls = ['http://tj.ganji.com/fang1/']
    
        def parse(self, response):
            print 'lalala'
            for title in response.xpath('//*[contains(concat( " ", @class, " " ), concat( " ", "js-title", " " ))]'):
                url = title.xpath('@href').extract()[0]
                if url.find('http')==-1:
                    url = 'http://tj.ganji.com'+url
                yield scrapy.Request(url, self.detail)
    
        def detail(self, response):
            data = BeautifulSoup(response.body, 'lxml')
            title = data.select('div.content.clearfix > div.leftBox > div.col-cont.title-box > h1')
            item = xianyuItem()
            item['title'] = title[0].get_text()
            item['url'] = response.url
            return item
    
    • settings.py
    ITEM_PIPELINES = {
       'tutorial.pipelines.TutorialPipeline': 300,
    }
    

    代码剖析

    今天的代码由三部分主体构成,首先来看items.py

    class xianyuItem(scrapy.Item):
        title = scrapy.Field()
        url = scrapy.Field()
        pass
    

    其实很好理解力,定义一个我们自己的item结构,里面有两个field,一个是title用来存储抓来的标题,一个是url用来存储抓来的url,我们直接跳到使用部分。

    看spider.py,首先:

    from ..items import xianyuItem
    

    这里需要注意的是,因为items.py和我们的spider.py并不在同级目录,如果要import需要在前面加上..表示上级目录,当然也可以这样

    from tutorial.items import xianyuItem
    

    但是这样会在pycharm里面报错,我个人不喜欢看到红字~推荐用上面的方式。我们来看detail函数:

    def detail(self, response):
            data = BeautifulSoup(response.body, 'lxml')
            title = data.select('div.content.clearfix > div.leftBox > div.col-cont.title-box > h1')
            item = xianyuItem()
            item['title'] = title[0].get_text()
            item['url'] = response.url
            return item
    

    我们先创建一个xianyuItem对象,然后给里面每个field赋值,最后return这个对象。这样,item就会被pipeline抓到。接下来我们用命令把抓来的数据导入到json文件中。进入tutorial项目跟目录,执行

    scrapy crawl test -o test.json -t json
    

    -o表示文件写入目录 -t 表示格式,执行完后打开test.json结果如图:


    1.png

    这样就可以把数据存入json中,接下来我们看看pipelines.py

    def open_spider(self, spider):
    def process_item(self, item, spider):
    def close_spider(self, spider):
    

    三个函数,第一个open_spider在spider开始的时候执行,在这个函数中我们一般会连接数据库,为数据存储做准备,上面代码中我连接了mongo数据库。process_item函数在捕捉到item的时候执行,一般我们会在这里做数据过滤并且把数据存入数据库。close_spider在spider结束的时候执行,一般用来断开数据库连接或者做数据收尾工作。

    写好pipeline之后我们需要到settings.py中开启pipeline:

    ITEM_PIPELINES = { 
      'tutorial.pipelines.TutorialPipeline': 300,
    }
    

    找到ITEM_PIPELINES 选项,把我们pipeline的路径配置进去,后面的数字表示的是pipeline的执行顺序,我们可以写多个pipeline用来过滤数据。执行结果如下:

    I)VX)ETO86N08}8USYSG8VW.png

    至此,我们本次代码解析完毕。你们应该已经会使用item和pipeline了吧。如果还有困惑可以去看官方文档~

    小技巧

    当我们一个爬虫项目量非常大时候,我们可能不能一次执行完毕,需要分好几次执行,这时候,我们只需要在启动爬虫的时候键入命令

    scrapy crawl xxx -s JOBDIR=job1
    

    这时候我们可以看到任务开始执行了,当我们想要暂停的时候按下ctrl+c。当我们想要恢复的时候键入:

    scrapy crawl xxx -s JOBDIR=job1
    

    这样就可以继续执行了~~
    这样,我们今天所有的目标都达成了,鼓掌~~

    写在最后

    这一章我们学习了一些进阶技巧,那么下一章我们还是Scrapy,下一章我们会讲如何使用CrawlSpider做多网页扒取,同时也会讲一些小技巧,比如,如何动态更改User-Agent进行反扒,如何设置扒取间隔等等~

    有兴趣的同学可以加群498945822一起交流学习哦~~
    发现问题的同学欢迎指正,直接说就行,不用留面子,博主脸皮厚!

    相关文章

      网友评论

      • 小蜜蜂_d9bf:请问,pipeline的性能如何?在实际的运行过程当中,发现,pipeline的保存数据库的速度跟不上爬虫的抓取速度,怎么破?
      • Mr_Cxy1991:博主 你好 我用scrapy生成了个项目amazonprj02,在做spider.py的时候,里面有一句from amazonprj02.items import amazoncommentItem,然后就老显示ImportError: No module named amazonprj02.items
        我的文件夹里面其实也是包含了__init__.py的,具体如下:
        amazonprj02 /
        scrapy.cfg
        amazonprj02 /
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders /
        __init__.py
        O2_spider.py
        我在CMD里面执行的路径是c:\Python27\Scrapytest\amazonprj02\scrapy crawl amazonprj02 -o data.json

        就是找不到items那个包
        4fd6c13511c8:在pyCharm中的爬虫项目根目录设置 Mark Directory as Source Root即可解决,无需增加额外代码。
        Creep_af05:同遇到过这个问题,我也是不能正常引入,不知道为什么出现问题,不过已找到解决方法。
        方法一:在你的spider.py里
        import sys
        sys.path.append('items所在路径')
        import items
        若是使用pycharm这里会有红色的错误提示,不必理会,执行的时候没问题的。
        方法二:
        直接查看sys.path的值,将items.py放在sys.path里的任何一个路径下都行,然后就可以import items

      本文标题:python爬虫的最佳实践(九)--Scrapy的items和p

      本文链接:https://www.haomeiwen.com/subject/pelprttx.html