爬虫如何实现
1.要实现的功能
- 爬取商品的评论
实现方式:requests、xpath
- CSV文件保存数据
商品名称,商品ID,商品价格,商品好评,商品中评,商品差评,商品追评,评论时间,购买商品使用的平台,顾客会员等级,顾客ID、顾客名称
- 对结果进行数据分析
- 通过使用
jieba
分词,配合Panda、Matplotlib进行数据分析,分析商品好在哪里【好的前10个】(柱状图),哪里让顾客不满意【坏的前十个】(柱状图)。- 绘制购买产商品会员等级的饼图,哪个会员等级的顾客更贱愿意购买该商品。
- 分析购买商品的平台,统计顾客更喜欢用哪个购物平台购买商品。
2.分析商品url构成
# 手机版网页
https://item.m.jd.com/product/4586850.html
代码可以表示为:
'https://item.m.jd.com/product/{product_id}.html'.format(product_id = 3995645)
# 电脑版网页
https://item.jd.com/3995645.html
代码可以表示为
'https://item.jd.com/{product_id}.html'.format(product_id = 3995645)
3.分析商品评论url构成
电脑版(get请求)
- 当前商品ID相关商品的评论url构成
https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv13283&productId=3995645&score=0&sortType=5&page=2&pageSize=10&isShadowSku=0&fold=1
- 当前选中商品的评论url构成
说明: 以下这种url构成不通用,换一种商品评论的url构成有可能就不一样
https://club.jd.com/comment/skuProductPageComments.action?callback=fetchJSON_comment98vv13288&productId=3995645&score=0&sortType=6&page=0&pageSize=10&isShadowSku=0&fold=1
如选中的是红色的iPhone7 Plus,用下面这个评论url只能获取红色iPhone7 Plus的评论。用上面的url可获取iPhone7 Plus所有的评论。
网页url传递了8个参数,参数描述如下:
-
callback:参数由```'fetchJSON_comment98vv' + commentVersion`构成,commentVersion可以在商品信息的html代码中通过正则表达式获取
commentVersion -
productId:商品的ID,如3995645
-
score:表示商品的评论栏
-
全部评价:0
-
好评:3
-
中评:2
-
差评:1
-
追评:5
-
晒图:4
score对照表 -
page:表示当前是第几页评论
-
sortType:排序方式
- 时间排序:6
- 推荐排序:5
-
pageSize:每页的评论数量,默认是10个
-
isShadowSku:不知道,默认为0
-
fold:不知道,默认为1
手机版(post请求)
- 当前商品ID相关商品的评论url构成
https://item.m.jd.com/newComments/newCommentsDetail.json
- post需传递了6个参数,参数描述如下:
- wareId:商品ID,如3995645
- offset:评论页码数
- num:没有评论数量,默认为10
- type:表示商品的评论栏,默认为0
- 全部评价:0
- 好评:3
- 中评:2
- 差评:1
-
晒图:4
商品评论栏
- checkParam:不详,默认为LUIPPTP
- evokeType:不详,默认为空
4.爬虫代码如下
说明:爬虫待完善,爬取的数据不全(电脑版)
import requests
import re
from lxml import etree
import json
import csv
import time
product_url = 'https://item.jd.com/3995645.html'
product_comment_url = 'https://club.jd.com/comment/skuProductPageComments.action?callback=fetchJSON_comment98vv{commentVersion}&productId={productID}&score={score}&sortType={sortType}&page={pageNum}&pageSize=10&isShadowSku=0&fold=1'
def get_html(url):
headers = {
'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
}
resp = requests.get(url, headers=headers)
if resp.status_code == 200:
return resp
else:
return None
# 获取commentVersion,用于构造评论页的url
def get_comment_version(resp):
pattern = re.compile(r"commentVersion:'(.*?)'")
commentVersion = re.search(pattern, resp).group(1)
return commentVersion
# 解析网页内容,获取下一页的链接
def get_next_page_url(current_url):
left_url = current_url.split('page=')[0]
# print(left_url)
right_url = '&'.join(current_url.split('page=')[-1].split('&')[1:])
# print(right_url)
current_page_num = int(current_url.split('page=')[-1].split('&')[0])
# print(current_page_num)
next_page_num = current_page_num + 1
next_page_url = left_url + 'page=' + str(next_page_num) + '&' + right_url
return next_page_url
# 根据参数生成商品评论url
def generate_product_comment_url(product_url, score, sortType, page):
commentVersion = get_comment_version(get_html(product_url))
productID = product_url.split('/')[-1].split('.')[0]
return product_comment_url.format(
commentVersion=commentVersion, productID=productID, score=0, sortType=6, page=1)
# 爬取单页的评论信息
def parse_comment_info(resp):
# fetchJSON_comment98vv13288();
if resp.text:
comments_json = resp.text[len('fetchJSON_comment98vv13288('):][:-2]
with open('comment.json', 'w') as f:
f.write(comments_json)
comments = json.loads(comments_json).get('comments')
for comment in comments:
comment_info = []
# 商品名称
comment_info.append(comment.get('referenceName'))
# 商品ID
comment_info.append(comment.get('referenceId'))
# 评论内容
comment_info.append(comment.get('content'))
# 评论时间
comment_info.append(comment.get('creationTime'))
# 评论人昵称
comment_info.append(comment.get('nickname'))
# 顾客会员等级
comment_info.append(comment.get('userLevelName'))
# 购物使用的平台
comment_info.append(comment.get('userClientShow'))
with open('comments.csv', 'a') as csvFile:
writer = csv.writer(csvFile)
writer.writerow(comment_info)
return comments_json
else:
return None
def get_all_comments(url):
print('获取第{}页评论'.format(int(url.split('page=')[-1].split('&')[0]) + 1), '<>', url)
parse_comment_info(get_html(url))
time.sleep(2)
next_page = get_next_page_url(url)
if get_html(url).text:
get_all_comments(next_page)
def main():
with open('comments.csv', 'w') as f:
writer = csv.writer(f)
writer.writerow(['商品名称', '商品ID', '评论内容', '评论时间', '评论人昵称', '顾客会员等级', '购物使用的平台'])
get_all_comments('https://club.jd.com/comment/skuProductPageComments.action?callback=fetchJSON_comment98vv13308&productId=3995645&score=0&sortType=6&page=0&pageSize=10&isShadowSku=0&fold=1')
if __name__ == '__main__':
main()
手机版
实打实大
商品数据分析
1.说明
- 本例子以Apple iPhone 7 Plus 128G 红色特别版 移动联通电信4G手机商品为例,非广告。
- 由于爬虫代码不够完善,只爬取了到了3000多条数据,远远小于商品数据实际的数量
2.分析购买人群的京东会员等级
会员等级分布的饼图- 从会员等级分布的饼图来看,购买该商品顾客的会员等级大部分为金牌会员和钻石会员,即京东的老客户。
3.分析客户通过哪种渠道进行购买
购买渠道的柱状图- 从分析结果来看,大部分客户都是通过京东的手机客户端购买商品的。
- 可以对比爬取热门
Android
手机的客户购买渠道,来分析IOS
用户与Android
用户的忠诚度。
4.数据分析代码(仅供参考)
#-*- coding: utf-8 -*-
import pandas as pd
import numpy
import matplotlib.pyplot as plt
from matplotlib import rcParams
# 读取商品的评论信息
df = pd.read_csv('/home/d4ngy4n/Desktop/comments.csv')
# 设置字体,避免中文出现乱码
rcParams['font.family'] = "Source Han Serif CN"
# df['顾客会员等级'].replace('PLUS会员[试用]', 'PLUS会员', inplace=True)
labels = list(set(df.顾客会员等级))
sizes = [list(df.顾客会员等级).count(level) for level in list(set(df.顾客会员等级))]
userLevelDataFrame = pd.DataFrame(numpy.array([labels, sizes]).T, columns=['会员级别', '人数'])
#调节图形大小,宽,高
plt.figure(figsize=(12,9))
#定义饼状图的外侧显示的文本标签,标签是列表
labels = sorted(list(set(df.顾客会员等级)))
# 定义饼图的颜色
colors = ['red', 'blue', 'yellow', 'cyan', 'purple', 'orange']
#sizes:设置每个标签在饼图中占多大,本例子是绘制会员分配的饼图
sizes = [list(df.顾客会员等级).count(level) for level in labels]
#将某部分爆炸出来, 使用括号,将第一块分割出来,数值的大小是分割出来的与其他两块的间隙
explode = (numpy.array([0.02 for i in range(len(labels))]))
#labeldistance,饼图外侧文本的位置离中心点有多远,1.1指1.1倍半径的位置,1表示在饼图的边上,<1表示文字在饼图内
#autopct,圆里面的文本格式,%.2f%%表示小数有两位的浮点数
#shadow,饼是否有阴影
#startangle,起始角度,0,表示从0开始逆时针转,为第一块。一般选择从90度开始比较好看
#pctdistance,百分比的text离圆心的距离
plt.pie(sizes,explode=explode,labels=labels,colors=colors,
labeldistance = 1.1,autopct = '%.2f%%',shadow = False,
startangle = 90,pctdistance = 0.6)
# 设置x,y轴刻度一致,这样饼图才能是圆的
plt.axis('equal')
# 绘制图例,loc用于设置图例的位置,upper right表示图例位于右上方
plt.legend(loc='upper left')
plt.title('购买商品的会员分配图')
plt.show()
# 缺失值处理
df = df.fillna('不详')
# 根据购物平台的名称,已经购买次数构造一个DataFrame
userClientCol = ['购物平台', '次数']
# 注意:需数组转置
userClientDataFrame = pd.DataFrame(numpy.array([list(set(df.购物使用的平台)), [list(df.购物使用的平台).count(level) for level in list(set(df.购物使用的平台))]]).T, columns=userClientCol)
plt.figure(figsize=(12,9),dpi=120)
labels = list(userClientDataFrame['购物平台'])
plt.bar(range(len(labels)),userClientDataFrame['次数'],tick_label=labels)
plt.title('购物使用的平台')
plt.show()
5.CSV文件信息
CSV文件信息红框就是缺失值,所有要用
df = df.fillna('不详')
处理缺失值
网友评论