用python爬取天猫商品评论（0）

作者: Java丶Script | 来源:发表于2018-02-10 23:32 被阅读857次

用python爬取天猫商品评论并分析（2）
用python爬取天猫商品评论（0）
爬取Amazon商品销售排行榜
第二节练习项目：爬取商品信息
爬取淘宝、京东评论数据并制作评论词云
用python3爬取天猫商品评论并分析（1）
案例集锦
吃货们注意了！淘宝美食排行榜！用Python来分析什么最好吃！
Python实战计划学习笔记示例（2）爬取商品信息
Python商品数据预处理与K-Means聚类可视化分析

由于日后实习需要，新年假期在家里有空写了个抓取天mao评论的程序，并用python的snownlp模块进行简单的情感分析，由于本人刚接触python，项目可能有许多不足，请大家谅解！具体流程如下：

0.主要流程

0.数据采集

0. 目标网址获取

首先，获取自己要爬取的商品网页。如图：

这里用iPhone x的商品做样例(博主目前使用的手机是小米3，穷鬼啊有没有！)。因为加载评论的页面用js封装起来了。因此需要用到浏览器开发者工具获取保存评论的页面，直接按F12打开。如图：

在NETwork//js目录下有一个形如上图的网址(巨长无比呀)，细心发现会有一个page=1的字段，这个是控制不同页数的关键字！因此我们只需要改变page的值就能爬取不同页面的内容了！！具体代码如下：

# -*- coding: utf-8 -*-

import urllib.request

import json

import time

import re

import pymysql

def find_message(url,x,j):

print('已有' + str(x) + '页无法获取')

#读取网页数据

html = urllib.request.urlopen(url).read().decode('gbk')

#筛选json格式数据

jsondata=re.search('^[^(]*?$(.*)$[^)]*$', html).group(1)

#用json加载数据

data = json.loads(jsondata)

#数据保存在变量里

conn = pymysql.connect(host='localhost', port=3306, user='root', passwd='1234', db='pysql', charset='utf8')

cur = conn.cursor()

# 连接mysql

print('连接成功!!!!')

try:

for i in range(0, len(data['rateDetail']['rateList'])):

#print(str(i + 1) + data['rateDetail']['rateList'][i])

name = data['rateDetail']['rateList'][i]['displayUserNick']

#处理过的用户名

content = data['rateDetail']['rateList'][i]['rateContent']

#当天评论

time = data['rateDetail']['rateList'][i]['rateDate']

# 评论日期

iphonetype = data['rateDetail']['rateList'][i]['auctionSku']

#机型

appenddays = data['rateDetail']['rateList'][i]['appendComment']['days']

#追加评论的天数

appendtime=data['rateDetail']['rateList'][i]['appendComment']['commentTime']

#追加评论的时间

appendcontent=data['rateDetail']['rateList'][i]['appendComment']['content']

#追加评论的内容

cur.execute("insert into iphonex(用户名,当天评论,当天时间,机型,追加天数,追加时间,追加评论) values (\"%s\",\"%s\",\"%s\",\"%s\",%d,\"%s\",\"%s\")"%(str(name),str(content),str(time),str(iphonetype),int(appenddays),str(appendtime),str(appendcontent)))

print(str(j+1)+"页数据已经保存")

#数据插入mysql

return x

except BaseException:

x+=1

print('已有'+str(x)+'页无法获取')

print("####此页无法获取####")

return x

#主函数

x=0

for j in range(1,50):

try:

print("正在获取第{}页评论数据!".format(j))

url = 'https://rate.tmall.com/list_detail_rate.htm?itemId=560257961625&spuId=893336129&sellerId=1917047079&order=3¤tPage=' + str(j) +'&append=1&' \

'content=1&tagId=&posi=&picture=0&ua=098%23E1hvLpvZv7UvUpCkvvvvvjiPPLLhzjtbPscOsjljPmPhljlUR25Z0jlURFSWljn8RFyCvvpvvvvvdphvmpvhOOhvvv2' \

'psOhCvv147GzzgY147Dunrn%2FrvpvEvvkj9oIuvWLMdphvmpvWPgEboQvgfOhCvv14cOjzyC147DikWn%2Fjvpvhvvpvv8wCvvpvvUmmRphvCvvvvvvPvpvhMMGvvvyCvhQpm' \

'kwvCszEDajxRLa9mNLhQnmOjVQ4S47B9CkaU6bnDO2hV36AxYjxAfyp%2B3%2BuQjc60fJ6EvLv%2BExreE9aUExr0jZ7%2B3%2Buzjc61C4Auphvmvvv9bvT4yc7kphvC99v' \

'vOClpbyCvm9vvvvvphvvvvvv96Cvpvs4vvm2phCvhRvvvUnvphvppvvv96CvpCCvvphvC9vhvvCvp86Cvvyv224CeiIvHUytvpvhvvvvv86CvvyvhEKCFgGv1WQtvpvhvvvvvUh' \

'CvmDz7GczTr147Dup2nGD1TAqsd%2FoU0dieGd8S6STvI8byIKB9OHmvtmWyv%3D%3D&isg=BAMDf2HuXRdECBGLXKb6oZc2ksdt0Jbc5_lgETXg6mLa9CIWvUsTCypmaoS61O-y&itemPropertyId=&itemPropertyIndex=&userProp' \

'ertyId=&userPropertyIndex=&rateQuery=&location=&needFold=0&_ksTS=1518175553706_1200&callback=jsonp1201'

x=find_message(url,x,j)

time.sleep(3)

# 设置时间间隔（这个不要忽视）

except BaseException:

continue

说几点代码的问题：

js网页效果图如下：