python爬虫的最佳实践(九)--Scrapy的items和p

作者: Darkeril | 来源:发表于2016-05-12 18:14 被阅读21410次

python爬虫的最佳实践(九)--Scrapy的items和p
scrapy框架的使用
爬虫课程（十）｜豆瓣：通过Pipeline保存数据到json文件
Python Scraping ———09.24.2017
python爬虫的最佳实践(八)--初探Scrapy
认识Scrapy框架
Swfit爬虫通过作者ID无接口获取简书文章列表，正则匹配HTM
Python爬虫学习教程：Scrapy爬虫框架入门
ubuntu 16.04 安装 Scrapy
2019Python学习教程（全套Python学习视频）：Scr

不想当将军的士兵不是好士兵，同理，不想当主程的程序员不是好程序员~

上一节我们讲了Scrapy的初步用法，我们已经学会了如何创建scrapy工程，如何编写简单的爬虫。

本节目标

学会Scrapy item的创建及使用
使用Scrapy将抓取到的数据存入json
使用Scrapy Pipeline做数据处理
学会暂停工程与重新开始工程

代码预览

items.py

class TutorialItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    pass

class xianyuItem(scrapy.Item):
    title = scrapy.Field()
    url = scrapy.Field()
    pass

pipelines.py

import pymongo

class TutorialPipeline(object):
    def open_spider(self, spider):
        self.client = pymongo.MongoClient('localhost', 27017)
        self.test = self.client['test']
        self.testData = self.test['testData']
        pass

    def process_item(self, item, spider):
        data = {
            'title': item['title'],
            'url': item['url']
        }
        self.testData.insert_one(data)
        return item

    def close_spider(self, spider):
        pass

spider.py

#coding:utf-8
import scrapy
from bs4 import BeautifulSoup
from ..items import xianyuItem

class testSpider(scrapy.Spider):
    name = 'test'
    start_urls = ['http://tj.ganji.com/fang1/']

    def parse(self, response):
        print 'lalala'
        for title in response.xpath('//*[contains(concat( " ", @class, " " ), concat( " ", "js-title", " " ))]'):
            url = title.xpath('@href').extract()[0]
            if url.find('http')==-1:
                url = 'http://tj.ganji.com'+url
            yield scrapy.Request(url, self.detail)

    def detail(self, response):
        data = BeautifulSoup(response.body, 'lxml')
        title = data.select('div.content.clearfix > div.leftBox > div.col-cont.title-box > h1')
        item = xianyuItem()
        item['title'] = title[0].get_text()
        item['url'] = response.url
        return item

settings.py

ITEM_PIPELINES = {
   'tutorial.pipelines.TutorialPipeline': 300,
}

代码剖析

今天的代码由三部分主体构成，首先来看items.py

class xianyuItem(scrapy.Item):
    title = scrapy.Field()
    url = scrapy.Field()
    pass

其实很好理解力，定义一个我们自己的item结构，里面有两个field，一个是title用来存储抓来的标题，一个是url用来存储抓来的url，我们直接跳到使用部分。

看spider.py，首先：

from ..items import xianyuItem

这里需要注意的是，因为items.py和我们的spider.py并不在同级目录，如果要import需要在前面加上..表示上级目录，当然也可以这样

from tutorial.items import xianyuItem

但是这样会在pycharm里面报错，我个人不喜欢看到红字~推荐用上面的方式。我们来看detail函数：

def detail(self, response):
        data = BeautifulSoup(response.body, 'lxml')
        title = data.select('div.content.clearfix > div.leftBox > div.col-cont.title-box > h1')
        item = xianyuItem()
        item['title'] = title[0].get_text()
        item['url'] = response.url
        return item

我们先创建一个xianyuItem对象，然后给里面每个field赋值，最后return这个对象。这样，item就会被pipeline抓到。接下来我们用命令把抓来的数据导入到json文件中。进入tutorial项目跟目录，执行

scrapy crawl test -o test.json -t json

-o表示文件写入目录 -t 表示格式，执行完后打开test.json结果如图：

1.png

这样就可以把数据存入json中，接下来我们看看pipelines.py

def open_spider(self, spider):
def process_item(self, item, spider):
def close_spider(self, spider):

三个函数，第一个open_spider在spider开始的时候执行，在这个函数中我们一般会连接数据库，为数据存储做准备，上面代码中我连接了mongo数据库。process_item函数在捕捉到item的时候执行，一般我们会在这里做数据过滤并且把数据存入数据库。close_spider在spider结束的时候执行，一般用来断开数据库连接或者做数据收尾工作。

写好pipeline之后我们需要到settings.py中开启pipeline：

ITEM_PIPELINES = { 
  'tutorial.pipelines.TutorialPipeline': 300,
}

找到ITEM_PIPELINES 选项，把我们pipeline的路径配置进去，后面的数字表示的是pipeline的执行顺序，我们可以写多个pipeline用来过滤数据。执行结果如下：

I)VX)ETO86N08}8USYSG8VW.png

至此，我们本次代码解析完毕。你们应该已经会使用item和pipeline了吧。如果还有困惑可以去看官方文档~

小技巧

当我们一个爬虫项目量非常大时候，我们可能不能一次执行完毕，需要分好几次执行，这时候，我们只需要在启动爬虫的时候键入命令

scrapy crawl xxx -s JOBDIR=job1

这时候我们可以看到任务开始执行了，当我们想要暂停的时候按下ctrl+c。当我们想要恢复的时候键入：

scrapy crawl xxx -s JOBDIR=job1

这样就可以继续执行了~~
这样，我们今天所有的目标都达成了，鼓掌~~

写在最后

这一章我们学习了一些进阶技巧，那么下一章我们还是Scrapy，下一章我们会讲如何使用CrawlSpider做多网页扒取，同时也会讲一些小技巧，比如，如何动态更改User-Agent进行反扒，如何设置扒取间隔等等~

有兴趣的同学可以加群498945822一起交流学习哦~~
发现问题的同学欢迎指正，直接说就行，不用留面子，博主脸皮厚！

python爬虫的最佳实践(九)--Scrapy的items和p
不想当将军的士兵不是好士兵，同理，不想当主程的程序员不是好程序员~ 上一节我们讲了Scrapy的初步用法，我们已经...
scrapy框架的使用
创建一个新的爬虫：scrapy genspider tencent "tencent.com" 编写items.p...
爬虫课程（十）｜豆瓣：通过Pipeline保存数据到json文件
在上一个课程爬虫课程（九）｜Scrapy中items设计及如何把item传给Item Pipeline 中，我们知...
Python Scraping ———09.24.2017
-非常好的介紹python 爬蟲入門 - 基于协程、异步IO的python爬虫 - python爬虫的最佳实践(六...
python爬虫的最佳实践(八)--初探Scrapy
程序员可以让步，却不可以退缩，可以羞涩，却不可以软弱，总之，程序员必须是勇敢的本节目标配置scrapy环境，创...
认识Scrapy框架
开发python，从程序的复杂程度可分为：爬虫项目和爬虫文件。使用Scrapy可以提高开发效率。 Scrapy安...
Swfit爬虫通过作者ID无接口获取简书文章列表，正则匹配HTM
上篇文章写过Python爬虫的方法，用的Scrapy框架。Python--Scrapy爬虫获取简书作者ID的全部文...
Python爬虫学习教程：Scrapy爬虫框架入门
Python爬虫学习教程：Scrapy概述 Scrapy是Python开发的一个非常流行的网络爬虫框架，可以用来抓...
ubuntu 16.04 安装 Scrapy
写爬虫首选Python，Python爬虫框架首选Scrapy。-- 沃滋基索德 Scrapy官网在醒目的地方告...
2019Python学习教程（全套Python学习视频）：Scr
Scrapy爬虫框架入门 Scrapy概述 Scrapy是Python开发的一个非常流行的网络爬虫框架，可以用来抓...

网友评论

小蜜蜂_d9bf:请问，pipeline的性能如何？在实际的运行过程当中，发现，pipeline的保存数据库的速度跟不上爬虫的抓取速度，怎么破？
Mr_Cxy1991:博主你好我用scrapy生成了个项目amazonprj02，在做spider.py的时候，里面有一句from amazonprj02.items import amazoncommentItem，然后就老显示ImportError: No module named amazonprj02.items
我的文件夹里面其实也是包含了__init__.py的，具体如下：
amazonprj02 /
scrapy.cfg
amazonprj02 /
__init__.py
items.py
pipelines.py
settings.py
spiders /
__init__.py
O2_spider.py
我在CMD里面执行的路径是c:\Python27\Scrapytest\amazonprj02\scrapy crawl amazonprj02 -o data.json

就是找不到items那个包
4fd6c13511c8:在pyCharm中的爬虫项目根目录设置 Mark Directory as Source Root即可解决，无需增加额外代码。
b76f171daced:同遇到过这个问题，我也是不能正常引入，不知道为什么出现问题，不过已找到解决方法。
方法一：在你的spider.py里
import sys
sys.path.append('items所在路径')
import items
若是使用pycharm这里会有红色的错误提示，不必理会，执行的时候没问题的。
方法二：
直接查看sys.path的值，将items.py放在sys.path里的任何一个路径下都行，然后就可以import items

python爬虫的最佳实践(九)--Scrapy的items和p

本节目标

代码预览

代码剖析

小技巧

写在最后

相关文章

python爬虫的最佳实践(九)--Scrapy的items和p

scrapy框架的使用

爬虫课程（十）｜豆瓣：通过Pipeline保存数据到json文件

Python Scraping ———09.24.2017

python爬虫的最佳实践(八)--初探Scrapy

认识Scrapy框架

Swfit爬虫通过作者ID无接口获取简书文章列表，正则匹配HTM

Python爬虫学习教程：Scrapy爬虫框架入门

ubuntu 16.04 安装 Scrapy

2019Python学习教程（全套Python学习视频）：Scr

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

python学习

Python

爬虫

scrapy

Python 爬虫专栏

菜鸟

Scrapy

Python语言与信息数据获取和机器学习