爬虫课堂（二十四）|使用Splash爬取京东商城的动态信息（2）

作者: 小怪聊职场 | 来源:发表于2018-03-30 18:32 被阅读420次

爬虫课堂（二十四）|使用Splash爬取京东商城的动态信息（2）
爬取京东商城中的书籍信息
无标题文章
十. 爬取动态页面 - splash的使用
京东商品信息和评价采集爬虫源码
SCrapy爬虫大战京东商城
爬虫课堂（二十三）|使用Splash爬取动态页面（1）
Python·爬取当当网图书信息
爬取淘宝商品信息
京东的验证码和反爬都很烦人吧？那又怎样，照样轻松爬取京东数据

在前面的二十三章节，我们讲解搭建了Splash的环境，这一章节通过一个实战来讲解Splash的使用。
一、分析页面的数据是否是动态加载的数据
以https://item.jd.com/2600240.html为例，先使用如下方法查看里面哪些数据是需要动态获取的，执行如下命令。
$ scrapy shell https://item.jd.com/2600240.html
运行结果如下图24-1所示：

图24-1

再执行view(response)，如下图24-2。

图24-2

将会在浏览器打开新页面，如图24-3所示：

图24-3

从图上的结果可以得知，京东价等信息都是没有显示的，说明这些信息是动态获取的，无法直接通过response.xpath()方式获取到。
正常情况下的信息如下图24-4所示，京东价为2799.00。

图24-4
当然，我们也可以使用xpath直接获取下试试能不能拿到这个数据。先用浏览器分析下京东价的HTML的结构，如下图24-5所示。

图24-5

在shell分别执行如下命令：

response.xpath('//span[@class="p-price"]/span/text()').extract()
response.xpath('//span[@class="p-price"]/span[@class="price J-p-2600240"]/text()').extract()

得到的结果如下图24-6所示：

图24-6

很明显，我们只能获取到￥，无法获取到2799.00，因为2799.00数据是动态填充的。
二、爬取动态加载的数据
遇到这种动态加载的数据时，不要慌，有很多种解决方法，其中之一就是使用Splash，在使用之前需要搭建Splash环境，具体查看爬虫课堂（二十三）|使用Splash爬取动态页面（1），接下来就是编写具体的代码。完整代码如下：

# -*- coding: utf-8 -*-
import scrapy
from scrapy import Request
from scrapy.spiders import Spider
from scrapy_splash import SplashRequest
from scrapy_splash import SplashMiddleware
from scrapy.http import Request, HtmlResponse
from scrapy.selector import Selector
from scrapy_splash import SplashRequest

class SplashSpider(Spider):
    name = 'scrapy_splash'
    start_urls = [
        'https://item.jd.com/2600240.html'
    ]

    # request需要封装成SplashRequest
    def start_requests(self):
        for url in self.start_urls:
            yield SplashRequest(url, self.parse, args={'wait': '0.5'})

    def parse(self, response):
        # 本文只抓取一个京东链接，此链接为京东商品页面，价格参数是ajax生成的。
        site = Selector(response)
        # 京东价
        prices = site.xpath('//span[@class="p-price"]/span[@class="price J-p-2600240"]/text()').extract()[0]
        print '京东价：' + prices

运行 scrapy crawl scrapy_splash即可。

爬虫课堂（二十四）|使用Splash爬取京东商城的动态信息（2）
在前面的二十三章节，我们讲解搭建了Splash的环境，这一章节通过一个实战来讲解Splash的使用。一、分析页面的...
爬取京东商城中的书籍信息
项目需求爬取京东商城中所有Python书籍的名字和价格信息。编码实现首先，在splash_e...
无标题文章
一、前言由于最近使用Python爬虫框架scrapy练习爬虫，在爬取动态网页的时候，需要用到splash，进行...
十. 爬取动态页面 - splash的使用
使用 scrapy+ splash 爬取动态页面。 1.splash的安装 ①splash的安装可参考这篇文章：h...
京东商品信息和评价采集爬虫源码
/*使用javascript编写的爬虫源码，用于爬取京东商品信息和评价。代码粘贴到神箭手云爬虫平台（http:/...
SCrapy爬虫大战京东商城
SCrapy爬虫大战京东商城引言上一篇已经讲过怎样获取链接，怎样获得参数了，详情请看python爬取京东商城普...
爬虫课堂（二十三）|使用Splash爬取动态页面（1）
在之前的章节中，爬取的都是静态页面中的信息，随着越来越多的网站开始用JS在客户端浏览器动态渲染网站，导致很多需要的...
Python·爬取当当网图书信息
爬虫实践爬取当当网图书信息爬取豆瓣即将上映电影爬虫 1)爬取常用的数据结构模型 2)图片爬取 3）批量命名图片
爬取淘宝商品信息
利用Ajax动态爬取淘宝商品信息功能依次实现爬虫的开发流程：爬取规则--->数据清洗--->数据存储实现代码：实现效果
京东的验证码和反爬都很烦人吧？那又怎样，照样轻松爬取京东数据
目标爬取京东商城上iPhone X用户评论数据；使用jieba对评论数据进行分词处理；使用wordcloud...