再谈Scrapy抓取结构化数据

作者: 向右奔跑 | 来源:发表于2017-01-17 00:47 被阅读834次

使用Beautiful Soup抓取结构化数据
再谈Scrapy抓取结构化数据
Scrapy快速浏览——Scrapy1.8官方文档
Scrapy介绍
06 scrapy框架
scrapy-splash抓取动态数据
爬虫框架scrapy和数据库MongoDB的结合使用（一）
Python爬虫抓取某院网站MM照片，10分钟教你爬取心目中的女
Python爬虫--Scrapy使用
Scrapy入门简介及Demo

还是以简书首页为例（7日热门trending/weekly/，30日热门trending/monthly/ 网页结构相似、样式是一样的），抓取文章标题、作者、阅读量、评论数、喜欢数和打赏。

1. 只提取文章标题内容

首先看一下文章标题部分的网页代码，对网页结构进行分析。

a 标签的内容就放着文章标题。它是在一个class="content"的div标签下面。那么如果只想抓到文章标题进行分析的话（如分析简书首页热点文章类型），就很简单。

titles = selector.xpath('//a/text()').extract()

显然这个是抓取到所有a标签的文本内容，很明显包含了页面上所有有链接，不仅仅是我们需要的文章标题。

需要加以限定，限定的方式一是加上需要抓取标签内容的样式属性(class) 或者指定这个标签的路径（xpath进行路径的限定，它的父标签，或父父标签是什么，或在这些标签上再加属性限制）。

titles = selector.xpath('//a[@class="title"]/text()').extract()

这样就可以了。在页面上class='title'就是文章标题的样式，注意这时候提取的是一个集合，循环迭代出来就是所有的文章标题。

titles = selector.xpath('//a[@class="title"]/text()').extract()
for title in titles:
     print title

注意，这时候，我们用Chrome的“检查” -- copy -- copy xpath，复制到的文章标题的xpath 是 //*[@id="note-8305658"]/div/a ，很显然这是一篇文章标题的xpath，不能作为我们循环提取页面上所有文章标题的xpath。

但是可以印证 a标签是在一个div下的，这个id 指是一个li 标签。也就是所有我们所需要的文章信息（标题，作者、阅读量等）都是在 li 标签里。

那这里要提取文章标题还有一种写法。

titles = selector.xpath('//div[@class="content"]/a/text()').extract()

2.提取结构化数据

结构化数据指的是一个数据块，对应数据库里的一条记录，程序中的一个对象。

根据上面的分析，要提取一篇文章所有信息（标题，作者，阅读量等），需要把循环放在 li 这里。

 infos = selector.xpath('//ul[@class="note-list"]/li')

再对infos进行循环，取出 li > div > a标签的text就是文章标题。

        infos = selector.xpath('//ul[@class="note-list"]/li')

        for info in infos:
            title = info.xpath('div/a/text()').extract()[0]
            print title

ul --> li 完整的数据块

此处要注意，在循环中使用的xpath是针对 infos 中的 info 进行一次xpath。

特别注意： infos = selector.xpath('//li[@class="have-img"]') 虽然选取的也是 li，但是这时候迭代是取不出来所有文章的，因为 have-img指的是那些有图的文章标题的列表。

把完整代码给出来。

    def parse(self, response):

        selector = Selector(response)
        infos = selector.xpath('//ul[@class="note-list"]/li')

        for info in infos:
            title = info.xpath('div/a/text()').extract()[0]
            print title

            author = info.xpath('div/div[1]/div/a/text()').extract()[0]
            print author

注意：在循环中直接使用了数组下标[0]的方式就是提取所要的一行内容。

一个小技巧，这时候最好用的是Chrome中的copy xpath，比如作者，copy出来的是

//*[@id="note-8305658"]/div/div[1]/div/a

你应该直接在代码中直接写id后面的那个路径。

3.总结一下

抓取结构化数据的关键，首先对网页结构要熟悉了解，另外就是要选择循环点，一般是父标签到数据块所在的标签，第三就是结合使用Chrome的copy xpath很方便，可以提高效率。

网友评论

本文标题：再谈Scrapy抓取结构化数据

本文链接：https://www.haomeiwen.com/subject/iszpbttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

再谈Scrapy抓取结构化数据

1. 只提取文章标题内容

2.提取结构化数据

3.总结一下

相关文章

使用Beautiful Soup抓取结构化数据