美文网首页
Scrapy入门教程之爬糗事百科

Scrapy入门教程之爬糗事百科

作者: androidWorkor | 来源:发表于2016-04-17 23:18 被阅读750次

    接着之前的文章(http://blog.csdn.net/androidworkor/article/details/51171098)来分析Scrapy的目录结构

    项目目录结构

    打开之前的指定的文件目录(F:\WorkSpace\python\Hello)完整的目录结构如下:

    Hello/
        scrapy.cfg
        Hello/
            __init__.py
            items.py
            pipelines.py
            settings.py
            spiders/
                __init__.py
                ...
    

    这些文件分别是:

    • scrapy.cfg: 项目的配置文件
    • Hello/: 该项目的python模块。之后您将在此加入代码。
    • Hello/items.py: 项目中的item文件.
    • Hello/pipelines.py: 项目中的pipelines文件.
    • Hello/settings.py: 项目的设置文件.
    • Hello/spiders/: 放置spider代码的目录.

    定义Item

    Item 是保存爬取到的数据的容器;其使用方法和python字典类似, 并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。我们来看一个例子


    这里就有用户图标、用户名称、内容、好笑和评论这5个属性那么item就可以这么定义了,打开items.py文件

    # -*- coding: utf-8 -*-
    
    # Define here the models for your scraped items
    #
    # See documentation in:
    # http://doc.scrapy.org/en/latest/topics/items.html
    
    import scrapy
    
    class HelloItem(scrapy.Item):
           # define the fields for your item here like:
        userIcon = scrapy.Field()
        userName = scrapy.Field()
        content = scrapy.Field()
        like = scrapy.Field()
        comment = scrapy.Field()
    

    编写第一个爬虫(Spider)

    Spider是用户编写用于从单个网站(或者一些网站)爬取数据的类。

    其包含了一个用于下载的初始URL,如何跟进网页中的链接以及如何分析页面中的内容, 提取生成 item 的方法。

    为了创建一个Spider,您必须继承 scrapy.Spider 类, 且定义以下三个属性:

    name: 用于区别Spider。 该名字必须是唯一的,您不可以为不同的Spider设定相同的名字。
    start_urls: 包含了Spider在启动时进行爬取的url列表。 因此,第一个被获取到的页面将是其中之一。 后续的URL则从初始的URL获取到的数据中提取。

    parse() 是spider的一个方法。 被调用时,每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。 该方法负责解析返回的数据(response data),提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。

    以下为我们的第一个Spider代码,保存在 Hello/spiders 目录下的 spider_qiushibaike.py 文件中:

    # -*- coding: utf-8 -*-
    import scrapy
    from Hello.items import HelloItem
    
    class Spider_qiushibaike(scrapy.Spider):
        name = "qiubai"
    
        start_urls = [
            'http://www.qiushibaike.com'
        ]
    
        def parse(self, response):
            for item in response.xpath('//div[@id="content-left"]/div[@class="article block untagged mb15"]'):
                qiubai = HelloItem()
    
                icon = item.xpath('./div[@class="author clearfix"]/a[1]/img/@src').extract()
                if icon:
                    icon = icon[0]
                    qiubai['userIcon'] = icon
    
                userName = item.xpath('./div[@class="author clearfix"]/a[2]/h2/text()').extract()
                if userName:
                    userName = userName[0]
                    qiubai['userName'] = userName
    
                content = item.xpath('./div[@class="content"]/descendant::text()').extract()
                if content:
                    con = ''
                    for str in content:
                        con += str
                    qiubai['content'] = con
    
                like = item.xpath('./div[@class="stats"]/span[@class="stats-vote"]/i/text()').extract()
                if like:
                    like = like[0]
                    qiubai['like'] = like
    
                comment = item.xpath('./div[@class="stats"]/span[@class="stats-comments"]/a/i/text()').extract()
                if comment:
                    comment = comment[0]
                    qiubai['comment'] = comment
    
                yield qiubai
    

    爬取

    进入项目的根目录,执行下列命令启动spider:

    scrapy crawl qiubai
    

    crawl qiubai 启动用于爬取 http://www.qiushibaike.com 的spider,您将得到类似的输出:

    当然你想保存到文件也是可以的,执行下列命令启动spider:

    scrapy crawl qiubai -o items.json
    

    这里保存为json格式,当然你也可以保存成其他格式。执行的结果:


    解析

    # -*- coding: utf-8 -*-
    

    这个是指定文件为utf-8格式

    import scrapy
    from Hello.items import HelloItem
    

    这个是导包

    class Spider_qiushibaike(scrapy.Spider):
    

    这个是定义一个类并继承自scrapy.Spider

    name = "qiubai"
    

    这个是指定spider的名称,该名字必须是唯一的,以区别不同的spider

    start_urls = [
            'http://www.qiushibaike.com'
    ]
    

    这个是指定要爬的网站

    def parse(self, response):
    

    这个是默认执行的方法,只要打开了上面设置的start_urls的网站就会调用这个方法,在这个方法中就可以解析数据了,其中response是抓取的网站的整个html内容。

    for item in response.xpath('//div[@id="content-left"]/div[@class="article block untagged mb15"]'):
    

    这句话就是遍历每项的内容,如下图所示:



    至于如何查看页面的源码就是在浏览器中按f12,就可以看到如上图所示的效果了。

    qiubai = HelloItem()
    

    定义一个item并初始化,这个就是之前定义的item,注: 所有之前必须先导入这个类
    from Hello.items import HelloItem

     icon = item.xpath('./div[@class="author clearfix"]/a[1]/img/@src').extract()
    if icon:
        icon = icon[0]
        qiubai['userIcon'] = icon
    

    这几行代码就是获取用户的图像,xpath的规则和写法可以参考http://scrapy-chs.readthedocs.org/zh_CN/latest/topics/selectors.html#topics-selectors-relative-xpaths大家一看就了解。

    userName = item.xpath('./div[@class="author clearfix"]/a[2]/h2/text()').extract()
    if userName:
        userName = userName[0]
        qiubai['userName'] = userName
    

    这几行是获取用户名称

    注意

    如果执行spider没结果并出现如下图所示的提示:

    一般是因为你没设定USER_AGENT,你可以打开文件目录中的settings.py添加一行代码

    USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0'
    

    至于值你可以设置成其他的。

    如果获取的文字内容不全,如下如所示:

    在页面文字中含有其他标签的,直接这样写

    content = item.xpath('./div[@class="content"]/text()').extract()
    

    这样获取到的文字只能获取前面一半的文字(在公园玩手机,看到一个车祸视频,我连忙拍着胸口说: 吓死宝宝了。)你可以改成:

    content = item.xpath('./div[@class="content"]/descendant::text()').extract()
    

    这样获取到全部的文字信息了。

    参考文献

    1. http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/tutorial.html
    2. http://www.v2ex.com/t/135633

    相关文章

      网友评论

          本文标题:Scrapy入门教程之爬糗事百科

          本文链接:https://www.haomeiwen.com/subject/oeaolttx.html