Python爬取京东商品评价(动态网页的爬取)

作者: 42c64edf12e9 | 来源:发表于2020-03-03 00:03 被阅读0次

Python爬取京东商品评价(动态网页的爬取)
案例集锦
Python实战计划学习笔记示例（2）爬取商品信息
爬取动态网页python+Web kit
京东商品评价信息采集爬虫开发教程-评价时间、内容、图片和评价者
京东商品爬取
爬取京东商品信息
Python爬取京东商品列表
网络爬虫实战(5个案例)
python爬取动态网页

完整代码可以关注公众号：Romi的杂货铺

首先打开京东的任意几个商品页面，并观察URL，可以发现都是https://item.jd.com/+数字+.htm的格式，而且数字也随着商品的改变而改变，基本上可以确定这串数字是商品ID

image

之后我们找到网页的源码并随便复制一句评论，在网页源码中查找，发现并没有找到评论内容，说明jd的评论页面并非静态网页

ＡＪＡＸ：
AJAX的全称是Asynchronous JavaScript and XML（异步的 JavaScript 和 XML）。
ajax不是新的编程语言，而是一种使用现有标准的新方法。ajax是与服务器交换数据并更新部分网页的艺术，在不重新加载整个页面的情况下。
ajax是一种在无需重新加载整个网页的情况下，能够更新部分网页的技术。
ajax是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换。ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。而传统的网页（不使用ajax）如果需要更新内容，必须重载整个网页面。

既然确定是AJAX的方式加载，我们可以直接打开chrome的调试工具，在network中的XHR和JS中寻找保存有评论的文件。注意这里必须先下拉到评论页面使数据文件加载下来，否则会找不到加载的数据文件

我们可以通过两种方式来查找包含评论的文件：
１.可以在ｊｓ和ＸＨＲ中寻找ｃｏｍｍｅｎｔ关键字，查看是否有文件符合要求，并对符合要求的结果筛选
２.评论在页面的最下方，根据文件的加载顺序可以大致了解到会在后面，从后面开始找即可

最终确定ｊｓ文件，如下图所示

image

这样我们就可以确定评论的请求地址并开始抓取

import requestsimport jsonurl='https://item.jd.com/52297931949.html'jsonurl='https://club.jd.com/comment/productPageComments.action?productId=52297931949&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1'html=requests.get(jsonurl).text#print(html)josntext=json.loads(html)comments= josntext['comments']for comment in comments:    content = comment['content']    print(content)

这里需要注意一下原始的jsonurl得到的文件并不是标准的json文件格式，我们可以将得到的文本内容复制到https://www.json.cn发现这并不是一个标准的josn文件，所以直接loads()会直接报错：json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)，只要返
回的对象不是josn对象就会出现此错误
解决的方法有两个，一是将URL中的?callback=fetchJSON_comment98去除，另外一种方法是将返回的文本对象中的fetchJSON_comment98替换为空

得到所需要的json文件后就可以将数据存到sqllite中了
sqllite是python内置的关系型数据库，具有以下优点：

不需要一个单独的服务器进程或操作的系统（无服务器的）。
SQLite不需要配置，这意味着不需要安装或管理。
一个完整的SQLite数据库是存储在一个单一的跨平台的磁盘文件。
SQLite是非常小的，是轻量级的，完全配置时小于 400KiB，省略可选功能配置时小于250KiB。
SQLite是自给自足的，这意味着不需要任何外部的依赖。
SQLite事务是完全兼容 ACID 的，允许从多个进程或线程安全访问。
SQLite支持 SQL92（SQL2）标准的大多数查询语言的功能。
SQLite使用 ANSI-C 编写的，并提供了简单和易于使用的 API。
SQLite 在 UNIX（Linux, Mac OS-X, Android,iOS）和 Windows（Win32, WinCE,WinRT）中运行。

python操作SQLite流程与连接其他的数据库相同，大概分为以下五步

通过sqlite3.open()创建与数据库文件的连接对象connection；
通过connection.cursor()创建光标对象cursor；
通过cursor.execute()执行SQL语句；
通过connection.commit()提交当前的事务，或者通过cursor.fetchall()获得查询结果；
通过connection.close()关闭与数据库文件的连接

这一部分代码如下所示

conn=sqlite3.connect("comments.db")#建立连接，数据库存在时，直接连接；不存在时，创建相应数据库#新建一张表conn.execute('''CREATE TABLE Comments_jd      (ID text PRIMARY KEY     NOT NULL,      comment text     );''')#注意sql语句中使用了格式化输出的占位符%s和%d来表示将要插入的变量，其中%s需要加引号''for comment in comments:    sql = "insert into Comments_jd(ID,comment) values('%s','%s')" % (comment['id'],comment['content'])    conn.execute(sql)conn.commit()# 关闭数据库连接conn.close()

之后检查以下数据是否有问题：

conn=sqlite3.connect("comments.db")cursor = conn.execute("select *  from Comments_jd")for row in cursor:    print('ID = ', row[0], '  Comment = ', row[1])conn.close()

得到的结果如下图所示