美文网首页
爬虫 - 京东商品数据分析(入门)

爬虫 - 京东商品数据分析(入门)

作者: dpkBat | 来源:发表于2017-05-27 23:13 被阅读0次

爬虫如何实现

1.要实现的功能

  • 爬取商品的评论

实现方式:requests、xpath

  • CSV文件保存数据

商品名称,商品ID,商品价格,商品好评,商品中评,商品差评,商品追评,评论时间,购买商品使用的平台,顾客会员等级,顾客ID、顾客名称

  • 对结果进行数据分析
  1. 通过使用jieba分词,配合Panda、Matplotlib进行数据分析,分析商品好在哪里【好的前10个】(柱状图),哪里让顾客不满意【坏的前十个】(柱状图)。
  2. 绘制购买产商品会员等级的饼图,哪个会员等级的顾客更贱愿意购买该商品。
  3. 分析购买商品的平台,统计顾客更喜欢用哪个购物平台购买商品。

2.分析商品url构成

# 手机版网页
https://item.m.jd.com/product/4586850.html

代码可以表示为:

'https://item.m.jd.com/product/{product_id}.html'.format(product_id = 3995645)
# 电脑版网页
https://item.jd.com/3995645.html

代码可以表示为

'https://item.jd.com/{product_id}.html'.format(product_id = 3995645)

3.分析商品评论url构成

电脑版(get请求)

  • 当前商品ID相关商品的评论url构成
https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv13283&productId=3995645&score=0&sortType=5&page=2&pageSize=10&isShadowSku=0&fold=1
  • 当前选中商品的评论url构成
    说明: 以下这种url构成不通用,换一种商品评论的url构成有可能就不一样
https://club.jd.com/comment/skuProductPageComments.action?callback=fetchJSON_comment98vv13288&productId=3995645&score=0&sortType=6&page=0&pageSize=10&isShadowSku=0&fold=1

如选中的是红色的iPhone7 Plus,用下面这个评论url只能获取红色iPhone7 Plus的评论。用上面的url可获取iPhone7 Plus所有的评论。

网页url传递了8个参数,参数描述如下:

  • callback:参数由```'fetchJSON_comment98vv' + commentVersion`构成,commentVersion可以在商品信息的html代码中通过正则表达式获取


    commentVersion
  • productId:商品的ID,如3995645

  • score:表示商品的评论栏

  • 全部评价:0

  • 好评:3

  • 中评:2

  • 差评:1

  • 追评:5

  • 晒图:4


    score对照表
  • page:表示当前是第几页评论

  • sortType:排序方式

    • 时间排序:6
    • 推荐排序:5
  • pageSize:每页的评论数量,默认是10个

  • isShadowSku:不知道,默认为0

  • fold:不知道,默认为1

手机版(post请求)

  • 当前商品ID相关商品的评论url构成
https://item.m.jd.com/newComments/newCommentsDetail.json
  • post需传递了6个参数,参数描述如下:
  1. wareId:商品ID,如3995645
  2. offset:评论页码数
  3. num:没有评论数量,默认为10
  4. type:表示商品的评论栏,默认为0
  • 全部评价:0
  • 好评:3
  • 中评:2
  • 差评:1
  • 晒图:4


    商品评论栏
  1. checkParam:不详,默认为LUIPPTP
  2. evokeType:不详,默认为空

4.爬虫代码如下

说明:爬虫待完善,爬取的数据不全(电脑版)

import requests
import re
from lxml import etree
import json
import csv
import time

product_url = 'https://item.jd.com/3995645.html'

product_comment_url = 'https://club.jd.com/comment/skuProductPageComments.action?callback=fetchJSON_comment98vv{commentVersion}&productId={productID}&score={score}&sortType={sortType}&page={pageNum}&pageSize=10&isShadowSku=0&fold=1'


def get_html(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
    }
    resp = requests.get(url, headers=headers)
    if resp.status_code == 200:
        return resp
    else:
        return None


# 获取commentVersion,用于构造评论页的url
def get_comment_version(resp):
    pattern = re.compile(r"commentVersion:'(.*?)'")
    commentVersion = re.search(pattern, resp).group(1)
    return commentVersion


# 解析网页内容,获取下一页的链接
def get_next_page_url(current_url):
    left_url = current_url.split('page=')[0]
    # print(left_url)
    right_url = '&'.join(current_url.split('page=')[-1].split('&')[1:])
    # print(right_url)
    current_page_num = int(current_url.split('page=')[-1].split('&')[0])
    # print(current_page_num)
    next_page_num = current_page_num + 1
    next_page_url = left_url + 'page=' + str(next_page_num) + '&' + right_url
    return next_page_url

# 根据参数生成商品评论url
def generate_product_comment_url(product_url, score, sortType, page):
    commentVersion = get_comment_version(get_html(product_url))
    productID = product_url.split('/')[-1].split('.')[0]
    return product_comment_url.format(
        commentVersion=commentVersion, productID=productID, score=0, sortType=6, page=1)

# 爬取单页的评论信息
def parse_comment_info(resp):
    # fetchJSON_comment98vv13288();
    if resp.text:
        comments_json = resp.text[len('fetchJSON_comment98vv13288('):][:-2]
        with open('comment.json', 'w') as f:
            f.write(comments_json)
        comments = json.loads(comments_json).get('comments')
        for comment in comments:
            comment_info = []
            # 商品名称
            comment_info.append(comment.get('referenceName'))
            # 商品ID
            comment_info.append(comment.get('referenceId'))        
            # 评论内容
            comment_info.append(comment.get('content'))
            # 评论时间
            comment_info.append(comment.get('creationTime'))
            # 评论人昵称
            comment_info.append(comment.get('nickname'))
            # 顾客会员等级
            comment_info.append(comment.get('userLevelName'))
            # 购物使用的平台
            comment_info.append(comment.get('userClientShow'))
            with open('comments.csv', 'a') as csvFile:
                writer = csv.writer(csvFile)
                writer.writerow(comment_info)
        return comments_json
    else:
        return None

def get_all_comments(url):
    print('获取第{}页评论'.format(int(url.split('page=')[-1].split('&')[0]) + 1), '<>', url)
    parse_comment_info(get_html(url))
    time.sleep(2)
    next_page = get_next_page_url(url)
    if get_html(url).text:
        get_all_comments(next_page)
    

def main():
    with open('comments.csv', 'w') as f:
            writer = csv.writer(f)
            writer.writerow(['商品名称', '商品ID', '评论内容', '评论时间', '评论人昵称', '顾客会员等级', '购物使用的平台'])
    get_all_comments('https://club.jd.com/comment/skuProductPageComments.action?callback=fetchJSON_comment98vv13308&productId=3995645&score=0&sortType=6&page=0&pageSize=10&isShadowSku=0&fold=1')

if __name__ == '__main__':
    main()

手机版

实打实大

商品数据分析

1.说明

2.分析购买人群的京东会员等级

会员等级分布的饼图
  • 从会员等级分布的饼图来看,购买该商品顾客的会员等级大部分为金牌会员和钻石会员,即京东的老客户。

3.分析客户通过哪种渠道进行购买

购买渠道的柱状图
  • 从分析结果来看,大部分客户都是通过京东的手机客户端购买商品的。
  • 可以对比爬取热门Android手机的客户购买渠道,来分析IOS用户与Android用户的忠诚度。

4.数据分析代码(仅供参考)

#-*- coding: utf-8 -*-
import pandas as pd
import numpy
import matplotlib.pyplot as plt
from matplotlib import rcParams

# 读取商品的评论信息
df = pd.read_csv('/home/d4ngy4n/Desktop/comments.csv')
# 设置字体,避免中文出现乱码
rcParams['font.family'] = "Source Han Serif CN"

# df['顾客会员等级'].replace('PLUS会员[试用]', 'PLUS会员', inplace=True)
labels = list(set(df.顾客会员等级))
sizes = [list(df.顾客会员等级).count(level) for level in list(set(df.顾客会员等级))]
userLevelDataFrame = pd.DataFrame(numpy.array([labels, sizes]).T, columns=['会员级别', '人数'])

#调节图形大小,宽,高
plt.figure(figsize=(12,9))
#定义饼状图的外侧显示的文本标签,标签是列表
labels = sorted(list(set(df.顾客会员等级)))
# 定义饼图的颜色
colors = ['red', 'blue', 'yellow', 'cyan', 'purple', 'orange']
#sizes:设置每个标签在饼图中占多大,本例子是绘制会员分配的饼图
sizes = [list(df.顾客会员等级).count(level) for level in labels]
#将某部分爆炸出来, 使用括号,将第一块分割出来,数值的大小是分割出来的与其他两块的间隙
explode = (numpy.array([0.02 for i in range(len(labels))]))
#labeldistance,饼图外侧文本的位置离中心点有多远,1.1指1.1倍半径的位置,1表示在饼图的边上,<1表示文字在饼图内
#autopct,圆里面的文本格式,%.2f%%表示小数有两位的浮点数
#shadow,饼是否有阴影
#startangle,起始角度,0,表示从0开始逆时针转,为第一块。一般选择从90度开始比较好看
#pctdistance,百分比的text离圆心的距离
plt.pie(sizes,explode=explode,labels=labels,colors=colors, 
        labeldistance = 1.1,autopct = '%.2f%%',shadow = False,
        startangle = 90,pctdistance = 0.6)

# 设置x,y轴刻度一致,这样饼图才能是圆的
plt.axis('equal')
# 绘制图例,loc用于设置图例的位置,upper right表示图例位于右上方
plt.legend(loc='upper left')
plt.title('购买商品的会员分配图')
plt.show()

# 缺失值处理
df = df.fillna('不详')

# 根据购物平台的名称,已经购买次数构造一个DataFrame
userClientCol = ['购物平台', '次数']
# 注意:需数组转置
userClientDataFrame = pd.DataFrame(numpy.array([list(set(df.购物使用的平台)), [list(df.购物使用的平台).count(level) for level in list(set(df.购物使用的平台))]]).T, columns=userClientCol)

plt.figure(figsize=(12,9),dpi=120)
labels = list(userClientDataFrame['购物平台'])
plt.bar(range(len(labels)),userClientDataFrame['次数'],tick_label=labels)
plt.title('购物使用的平台')
plt.show()

5.CSV文件信息

CSV文件信息
红框就是缺失值,所有要用df = df.fillna('不详')处理缺失值

6.参考资料

7.待分析商品的优点、缺点

  • 思路:取到商品的评论信息,jieba分词处理,配合词云或者是PandaMatplotlib做可视化处理。

相关文章

  • 爬虫 - 京东商品数据分析(入门)

    爬虫如何实现 1.要实现的功能 爬取商品的评论 实现方式:requests、xpath CSV文件保存数据 商品名...

  • 京东商品评论爬虫

    2017/1/2 22:21:40 京东商品评论爬虫 针对京东不同的商品的评价进行爬虫然后再分析 实例:魅族手机魅...

  • 爬虫软件的介绍及案例说明

    采集系列文章 ▶爬虫软件的介绍及案例说明(本文) 案例一:采集京东商品列表页数据(文章链接) 案例二:采集京东商品...

  • 采集案例一:采集京东商品列表页数据

    采集系列文章 爬虫软件的介绍及案例说明(文章链接) ▶案例一:采集京东商品列表页数据(本文) 案例二:采集京东商品...

  • 采集案例二:采集京东商品详情

    采集系列文章 爬虫软件的介绍及案例说明(文章链接) 案例一:采集京东商品列表页数据(文章链接) ▶案例二:采集京东...

  • 采集案例三:采集京东商品评论

    采集系列文章 爬虫软件的介绍及案例说明(文章链接) 案例一:采集京东商品列表页数据(文章链接) 案例二:采集京东商...

  • 大数据入门——爬虫的基本套路

    大数据入门——爬虫的基本套路 数据分析师必须要会的技能就是爬虫,在开始学习前先基本了解下爬虫。 爬虫有什么作用? ...

  • Python 视频资料

    Python教程600集 小甲鱼零基础入门学习Python 数据分析与数据爬虫实战

  • 目录||所学见解技能=知识教程

    专业技能 《Python 入门基础》《Python web窗口》《Python 爬虫实践》《Python 数据分析...

  • 爬虫简介

    爬虫: 网络爬虫机器人,以互联网自由抓取数据的程序 爬虫的作用: 搜索引擎 商品比价 知乎的数据分析平台 如何写一...

网友评论

      本文标题:爬虫 - 京东商品数据分析(入门)

      本文链接:https://www.haomeiwen.com/subject/ibiqfxtx.html