爬虫 - 京东商品数据分析（入门）

作者: dpkBat | 来源:发表于2017-05-27 23:13 被阅读0次

爬虫 - 京东商品数据分析（入门）
京东商品评论爬虫
爬虫软件的介绍及案例说明
采集案例一：采集京东商品列表页数据
采集案例二：采集京东商品详情
采集案例三：采集京东商品评论
大数据入门——爬虫的基本套路
Python 视频资料
目录||所学见解技能=知识教程
爬虫简介

爬虫如何实现

1.要实现的功能

爬取商品的评论

实现方式：requests、xpath

CSV文件保存数据

商品名称，商品ID，商品价格，商品好评，商品中评，商品差评，商品追评，评论时间，购买商品使用的平台，顾客会员等级，顾客ID、顾客名称

对结果进行数据分析

通过使用jieba分词，配合Panda、Matplotlib进行数据分析，分析商品好在哪里【好的前10个】（柱状图），哪里让顾客不满意【坏的前十个】（柱状图）。

绘制购买产商品会员等级的饼图，哪个会员等级的顾客更贱愿意购买该商品。

分析购买商品的平台，统计顾客更喜欢用哪个购物平台购买商品。

2.分析商品url构成

# 手机版网页
https://item.m.jd.com/product/4586850.html

代码可以表示为：

'https://item.m.jd.com/product/{product_id}.html'.format(product_id = 3995645)

# 电脑版网页
https://item.jd.com/3995645.html

代码可以表示为

'https://item.jd.com/{product_id}.html'.format(product_id = 3995645)

3.分析商品评论url构成

电脑版（get请求）

当前商品ID相关商品的评论url构成

https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv13283&productId=3995645&score=0&sortType=5&page=2&pageSize=10&isShadowSku=0&fold=1

当前选中商品的评论url构成
说明：以下这种url构成不通用，换一种商品评论的url构成有可能就不一样

https://club.jd.com/comment/skuProductPageComments.action?callback=fetchJSON_comment98vv13288&productId=3995645&score=0&sortType=6&page=0&pageSize=10&isShadowSku=0&fold=1

如选中的是红色的iPhone7 Plus，用下面这个评论url只能获取红色iPhone7 Plus的评论。用上面的url可获取iPhone7 Plus所有的评论。

网页url传递了8个参数，参数描述如下：

callback：参数由```'fetchJSON_comment98vv' + commentVersion`构成，commentVersion可以在商品信息的html代码中通过正则表达式获取

commentVersion
productId：商品的ID，如3995645
score：表示商品的评论栏
全部评价：0
好评：3
中评：2
差评：1
追评：5
晒图：4

score对照表
page：表示当前是第几页评论
sortType：排序方式
- 时间排序：6
- 推荐排序：5
pageSize：每页的评论数量，默认是10个
isShadowSku：不知道，默认为0
fold：不知道，默认为1

手机版（post请求）

当前商品ID相关商品的评论url构成

https://item.m.jd.com/newComments/newCommentsDetail.json

post需传递了6个参数，参数描述如下：

wareId:商品ID，如3995645
offset:评论页码数
num:没有评论数量，默认为10
type:表示商品的评论栏，默认为0

全部评价：0
好评：3
中评：2
差评：1
晒图：4

商品评论栏

checkParam:不详，默认为LUIPPTP
evokeType:不详，默认为空

4.爬虫代码如下

说明：爬虫待完善，爬取的数据不全（电脑版）

import requests
import re
from lxml import etree
import json
import csv
import time

product_url = 'https://item.jd.com/3995645.html'

product_comment_url = 'https://club.jd.com/comment/skuProductPageComments.action?callback=fetchJSON_comment98vv{commentVersion}&productId={productID}&score={score}&sortType={sortType}&page={pageNum}&pageSize=10&isShadowSku=0&fold=1'


def get_html(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
    }
    resp = requests.get(url, headers=headers)
    if resp.status_code == 200:
        return resp
    else:
        return None


# 获取commentVersion，用于构造评论页的url
def get_comment_version(resp):
    pattern = re.compile(r"commentVersion:'(.*?)'")
    commentVersion = re.search(pattern, resp).group(1)
    return commentVersion


# 解析网页内容，获取下一页的链接
def get_next_page_url(current_url):
    left_url = current_url.split('page=')[0]
    # print(left_url)
    right_url = '&'.join(current_url.split('page=')[-1].split('&')[1:])
    # print(right_url)
    current_page_num = int(current_url.split('page=')[-1].split('&')[0])
    # print(current_page_num)
    next_page_num = current_page_num + 1
    next_page_url = left_url + 'page=' + str(next_page_num) + '&' + right_url
    return next_page_url

# 根据参数生成商品评论url
def generate_product_comment_url(product_url, score, sortType, page):
    commentVersion = get_comment_version(get_html(product_url))
    productID = product_url.split('/')[-1].split('.')[0]
    return product_comment_url.format(
        commentVersion=commentVersion, productID=productID, score=0, sortType=6, page=1)

# 爬取单页的评论信息
def parse_comment_info(resp):
    # fetchJSON_comment98vv13288();
    if resp.text:
        comments_json = resp.text[len('fetchJSON_comment98vv13288('):][:-2]
        with open('comment.json', 'w') as f:
            f.write(comments_json)
        comments = json.loads(comments_json).get('comments')
        for comment in comments:
            comment_info = []
            # 商品名称
            comment_info.append(comment.get('referenceName'))
            # 商品ID
            comment_info.append(comment.get('referenceId'))        
            # 评论内容
            comment_info.append(comment.get('content'))
            # 评论时间
            comment_info.append(comment.get('creationTime'))
            # 评论人昵称
            comment_info.append(comment.get('nickname'))
            # 顾客会员等级
            comment_info.append(comment.get('userLevelName'))
            # 购物使用的平台
            comment_info.append(comment.get('userClientShow'))
            with open('comments.csv', 'a') as csvFile:
                writer = csv.writer(csvFile)
                writer.writerow(comment_info)
        return comments_json
    else:
        return None

def get_all_comments(url):
    print('获取第{}页评论'.format(int(url.split('page=')[-1].split('&')[0]) + 1), '<>', url)
    parse_comment_info(get_html(url))
    time.sleep(2)
    next_page = get_next_page_url(url)
    if get_html(url).text:
        get_all_comments(next_page)
    

def main():
    with open('comments.csv', 'w') as f:
            writer = csv.writer(f)
            writer.writerow(['商品名称', '商品ID', '评论内容', '评论时间', '评论人昵称', '顾客会员等级', '购物使用的平台'])
    get_all_comments('https://club.jd.com/comment/skuProductPageComments.action?callback=fetchJSON_comment98vv13308&productId=3995645&score=0&sortType=6&page=0&pageSize=10&isShadowSku=0&fold=1')

if __name__ == '__main__':
    main()

手机版

实打实大

商品数据分析

1.说明

本例子以Apple iPhone 7 Plus 128G 红色特别版移动联通电信4G手机商品为例，非广告。
由于爬虫代码不够完善，只爬取了到了3000多条数据，远远小于商品数据实际的数量

2.分析购买人群的京东会员等级

会员等级分布的饼图

从会员等级分布的饼图来看，购买该商品顾客的会员等级大部分为金牌会员和钻石会员，即京东的老客户。

3.分析客户通过哪种渠道进行购买

购买渠道的柱状图

从分析结果来看，大部分客户都是通过京东的手机客户端购买商品的。
可以对比爬取热门Android手机的客户购买渠道，来分析IOS用户与Android用户的忠诚度。

4.数据分析代码（仅供参考）

#-*- coding: utf-8 -*-
import pandas as pd
import numpy
import matplotlib.pyplot as plt
from matplotlib import rcParams

# 读取商品的评论信息
df = pd.read_csv('/home/d4ngy4n/Desktop/comments.csv')
# 设置字体，避免中文出现乱码
rcParams['font.family'] = "Source Han Serif CN"

# df['顾客会员等级'].replace('PLUS会员[试用]', 'PLUS会员', inplace=True)
labels = list(set(df.顾客会员等级))
sizes = [list(df.顾客会员等级).count(level) for level in list(set(df.顾客会员等级))]
userLevelDataFrame = pd.DataFrame(numpy.array([labels, sizes]).T, columns=['会员级别', '人数'])

#调节图形大小，宽，高
plt.figure(figsize=(12,9))
#定义饼状图的外侧显示的文本标签，标签是列表
labels = sorted(list(set(df.顾客会员等级)))
# 定义饼图的颜色
colors = ['red', 'blue', 'yellow', 'cyan', 'purple', 'orange']
#sizes：设置每个标签在饼图中占多大，本例子是绘制会员分配的饼图
sizes = [list(df.顾客会员等级).count(level) for level in labels]
#将某部分爆炸出来， 使用括号，将第一块分割出来，数值的大小是分割出来的与其他两块的间隙
explode = (numpy.array([0.02 for i in range(len(labels))]))
#labeldistance，饼图外侧文本的位置离中心点有多远，1.1指1.1倍半径的位置，1表示在饼图的边上，<1表示文字在饼图内
#autopct，圆里面的文本格式，%.2f%%表示小数有两位的浮点数
#shadow，饼是否有阴影
#startangle，起始角度，0，表示从0开始逆时针转，为第一块。一般选择从90度开始比较好看
#pctdistance，百分比的text离圆心的距离
plt.pie(sizes,explode=explode,labels=labels,colors=colors, 
        labeldistance = 1.1,autopct = '%.2f%%',shadow = False,
        startangle = 90,pctdistance = 0.6)

# 设置x，y轴刻度一致，这样饼图才能是圆的
plt.axis('equal')
# 绘制图例,loc用于设置图例的位置，upper right表示图例位于右上方
plt.legend(loc='upper left')
plt.title('购买商品的会员分配图')
plt.show()

# 缺失值处理
df = df.fillna('不详')

# 根据购物平台的名称，已经购买次数构造一个DataFrame
userClientCol = ['购物平台', '次数']
# 注意：需数组转置
userClientDataFrame = pd.DataFrame(numpy.array([list(set(df.购物使用的平台)), [list(df.购物使用的平台).count(level) for level in list(set(df.购物使用的平台))]]).T, columns=userClientCol)

plt.figure(figsize=(12,9),dpi=120)
labels = list(userClientDataFrame['购物平台'])
plt.bar(range(len(labels)),userClientDataFrame['次数'],tick_label=labels)
plt.title('购物使用的平台')
plt.show()

5.CSV文件信息

CSV文件信息
红框就是缺失值，所有要用df = df.fillna('不详')处理缺失值

6.参考资料

7.待分析商品的优点、缺点

思路：取到商品的评论信息，jieba分词处理，配合词云或者是Panda、Matplotlib做可视化处理。

爬虫 - 京东商品数据分析（入门）
爬虫如何实现 1.要实现的功能爬取商品的评论实现方式：requests、xpath CSV文件保存数据商品名...
京东商品评论爬虫
2017/1/2 22:21:40 京东商品评论爬虫针对京东不同的商品的评价进行爬虫然后再分析实例：魅族手机魅...
爬虫软件的介绍及案例说明
采集系列文章 ▶爬虫软件的介绍及案例说明（本文）案例一：采集京东商品列表页数据（文章链接）案例二：采集京东商品...
采集案例一：采集京东商品列表页数据
采集系列文章爬虫软件的介绍及案例说明（文章链接） ▶案例一：采集京东商品列表页数据（本文）案例二：采集京东商品...
采集案例二：采集京东商品详情
采集系列文章爬虫软件的介绍及案例说明（文章链接）案例一：采集京东商品列表页数据（文章链接） ▶案例二：采集京东...
采集案例三：采集京东商品评论
采集系列文章爬虫软件的介绍及案例说明（文章链接）案例一：采集京东商品列表页数据（文章链接）案例二：采集京东商...
大数据入门——爬虫的基本套路
大数据入门——爬虫的基本套路数据分析师必须要会的技能就是爬虫，在开始学习前先基本了解下爬虫。爬虫有什么作用？ ...
Python 视频资料
Python教程600集小甲鱼零基础入门学习Python 数据分析与数据爬虫实战
目录||所学见解技能=知识教程
专业技能《Python 入门基础》《Python web窗口》《Python 爬虫实践》《Python 数据分析...
爬虫简介
爬虫：网络爬虫机器人，以互联网自由抓取数据的程序爬虫的作用：搜索引擎商品比价知乎的数据分析平台如何写一...

爬虫 - 京东商品数据分析（入门）

爬虫如何实现

1.要实现的功能

2.分析商品url构成

3.分析商品评论url构成

电脑版（get请求）

手机版（post请求）

4.爬虫代码如下

商品数据分析

1.说明

2.分析购买人群的京东会员等级

3.分析客户通过哪种渠道进行购买

4.数据分析代码（仅供参考）

5.CSV文件信息

6.参考资料

7.待分析商品的优点、缺点

相关文章

爬虫 - 京东商品数据分析（入门）

京东商品评论爬虫

爬虫软件的介绍及案例说明

采集案例一：采集京东商品列表页数据

采集案例二：采集京东商品详情

采集案例三：采集京东商品评论

大数据入门——爬虫的基本套路

Python 视频资料

目录||所学见解技能=知识教程

爬虫简介

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读