课堂作业
要爬取的数据类别
对应的数据源网站
爬取数据的URL
数据筛选规则(选做)
作业有点难,但还得交。完成比完美更重要,你说呢?先给自己订个小目标,先做个简单的小项目:找出蘑菇街快抢频道单场活动,单坑产出最高GMV的明星产品。用图表来展示各商品产出GMV情况。
要爬取的数据类别: 商品名称,活动价格,活动数量,抢剩多少件,
[根据已知的数据,可以计算出 单坑GMV(活动价格*活动数量),
实际成交的GMV(活动价格*已经成交件数),
完成度(已给成交的件数/活动数量)]
对应的数据源网站:蘑菇街快抢频道
爬取数据的URL:http://qiang.mogujie.com/jsonp/fastBuyListActionLet/1?callback=jQuery17208702880139730742_1498714398727&bizKey=rush_main&token=eXEv6%252Fkfp4T6Y4e1yZSlMlKNt5GJvSMv9fHgfq8Tk181DuUVqJ6o4XdETLI45DOo1df0S%252B7%252B67bNyV6fzJtWzA%253D%253D&_=1498714398873
# 不同时段去爬,URL最后面的时间戳(就是最后那串13位数字)有点差别。 网站公示的数据也是有时间限制。即 当前时间前后的6个小时内的数据可获得。
数据筛选规则:返回的 JSON数据格式,需要的数据已有在里面有逐一列出。(目前不知道要用什么工具,或代码,去截取自己想要的某个特定数据。)
自己现有的疑问如下,还望 tiger 指点。
* URL要怎么去确认下来,时间戳要怎么生成?
* 返回来的JSON数据格式。 要怎么转换,怎么筛选出自己要的特定数据?
* 最终得到的数据,要怎么去保存下来?
网友评论