爬取淘宝任一商品首页动态数据信息

作者: 蜗牛仔 | 来源:发表于2016-11-25 01:16 被阅读1585次

在淘宝首页输入商品数据,搜索出来的商品信息是ajax动态加载出来的,这样的信息再源代码的是找不到,于是爬取这些信息可以选择selenium或者找到这个js文件进行解析,本文这次是抓到这个js文件进行解析的,首先打开淘宝页面,本文以搜索文胸为例子,如图,注意此时network中是只有少数几个js文件的

Paste_Image.png

点击商品页面第二页,我们发现JS中多了很多个请求,如图,这里有隐藏着商品信息的js文件

Paste_Image.png

找到这个文件就好办了,接下来就发送请求,解析json文件的事情了,只要点多几次,这个文件就能找到的,不难,如图

Paste_Image.png

但是观察这份json数据和网址之间的关系，我们还可以做一些相应的修改，方便我们爬取之后的解析，这也是楼主实验多次的结果，爬虫真是体力活啊

Paste_Image.png

去掉如图红色箭头所指的字母之后是这样的，这就是一份很规则的json数据了，直接解析就好了

Paste_Image.png

import requests
import json
import csv
class Spider(object):
首先找到获得这个文件的链接,其实这个链接很长,但是我们可以修改,把其他东西去掉,剩下这样的
https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ksTS=1479917597216_854&callback&q={},
大括号里面的是我们自己填充的搜索内容,
,我们使用这个简化版的url，访问效果是一样的
json_url='https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ksTS=1479917597216_854&callback&q={}'
再提一下,这里q之前的jsonjsonp1035这个字符已经链接上去掉,
否则获得的json文件就有这个字符在前面,影响json.loads的解析,
这里可是折腾了楼主这种小白差不多两个小时啊,简直要死
    def __init__(self,kwyword):
        self.url =self.json_url.format(kwyword)
        data = self.get_source()
        #print(data)
        #print(type(data))

        #print(data)
        rusult_list= self.get_all_data(data)
        self.write_data(rusult_list)
    def get_source(self):
        html = requests.get(self.url)
        #print(html.content)
        return html.content.decode()不解码的话看不到文字
    def get_all_data(self,data):
        data_dict= json.loads(data)

        print(data_dict)
        print(type(data_dict))
        item_list = data_dict['mods']['itemlist']['data']['auctions']
      这一步尤其关键,是提取信息最关键的一步,也是折腾了我最久的,不得不感叹,淘宝的数据隐藏得真是深啊
        print(item_list)
        result_list = []
        for item in item_list:
            result_dict = {}
            result_dict['title'] = item['title'].replace('<span class=H>', '').replace('</span>', '')
            result_dict['url'] = 'http:' + item['detail_url']
            result_dict['location'] = item['item_loc']
            result_dict['shop_name'] = item['nick']
            result_dict['原价'] = item['reserve_price']
            result_dict['现价'] = item['view_price']
            print(result_dict)
            result_list.append(result_dict)
        return result_list
    def write_data(self, result_list):
        with open('result.csv', 'w', encoding='UTF-8') as f:
            writer = csv.DictWriter(f, fieldnames=['title', '原价', '现价','shop_name', 'location',  'url'])
            writer.writeheader()
            writer.writerows(result_list)

if __name__ == '__main__':
    keyword=input('请输入搜索的内容:' )
    all_data = Spider(keyword)

这是解析后的数据

Paste_Image.png

最后效果图

Paste_Image.png

当然,只抓取一页怎么能满足呢,于是我分析了每个页面的url,发现还是有规律的

Paste_Image.png

除了第一个页面的js文件有点特殊,其他的都是由规律可以寻找的,这为我们大规模爬取提供了可能,数据还可以提取每个商品的购买人数,运费等等信息,对于分析也很有帮助,以后想起再来写吧

爬取淘宝任一商品首页动态数据信息

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

python开发

buffer

Python 爬虫专栏

Pythoner集中营

生活不易我用python

python加油站

爬取淘宝任一商品首页动态数据信息

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

python开发

buffer

Python 爬虫专栏

Pythoner集中营

生活不易 我用python

python加油站

生活不易我用python