美文网首页解密大数据
爬虫作业01-获取网络数据的原理

爬虫作业01-获取网络数据的原理

作者: pnjoe | 来源:发表于2017-06-29 14:13 被阅读110次

课堂作业

  要爬取的数据类别

  对应的数据源网站

  爬取数据的URL

  数据筛选规则(选做)

作业有点难,但还得交。完成比完美更重要,你说呢?

先给自己订个小目标,先做个简单的小项目:找出蘑菇街快抢频道单场活动,单坑产出最高GMV的明星产品。用图表来展示各商品产出GMV情况。

要爬取的数据类别:  商品名称,活动价格,活动数量,抢剩多少件,

     [根据已知的数据,可以计算出  单坑GMV(活动价格*活动数量),

                                                            实际成交的GMV(活动价格*已经成交件数),

                                                            完成度(已给成交的件数/活动数量)]

对应的数据源网站蘑菇街快抢频道

爬取数据的URL:http://qiang.mogujie.com/jsonp/fastBuyListActionLet/1?callback=jQuery17208702880139730742_1498714398727&bizKey=rush_main&token=eXEv6%252Fkfp4T6Y4e1yZSlMlKNt5GJvSMv9fHgfq8Tk181DuUVqJ6o4XdETLI45DOo1df0S%252B7%252B67bNyV6fzJtWzA%253D%253D&_=1498714398873    

# 不同时段去爬,URL最后面的时间戳(就是最后那串13位数字)有点差别。   网站公示的数据也是有时间限制。即 当前时间前后的6个小时内的数据可获得。

数据筛选规则:返回的 JSON数据格式,需要的数据已有在里面有逐一列出。(目前不知道要用什么工具,或代码,去截取自己想要的某个特定数据。)


自己现有的疑问如下,还望 tiger 指点。 

 *  URL要怎么去确认下来,时间戳要怎么生成? 

 *  返回来的JSON数据格式。 要怎么转换,怎么筛选出自己要的特定数据?

 *  最终得到的数据,要怎么去保存下来?

相关文章

  • 爬虫作业01-获取网络数据的原理

    课堂作业 要爬取的数据类别 对应的数据源网站 爬取数据的URL 数据筛选规则(选做) 先给自己订个小目标,...

  • 爬虫入门01-获取网络数据的原理作业

    作业: 要爬取的数据类别 对应的数据源网站 爬取数据的URL 数据筛选规则 我的答案是这样的: 要爬取的数据是豆瓣...

  • 【Python爬虫】第三周练习(11)

    一:简单叙述爬虫原理网络爬虫就是一个自动化信息采集工具.具体步骤分为: 通过代码,请求网络数据,并获取网络返回结果...

  • 【Python爬虫】-爬出原理

    简单叙述爬虫原理请求数据解析数据获取数据

  • 3.爬虫原理及实践

    爬虫原理及实践 什么是爬虫? 爬虫就是用来从网络上获取数据的一种方法工具,当你缺少数据,或者发现有的网站上有你想要...

  • 1

    两种典型爬虫:通用网络爬虫、聚焦网络爬虫 通用网络爬虫实现原理与过程: 获取初始的URL 根据初始的URL爬取页面...

  • 2w爬虫课程总结笔记

    爬虫 模拟客户端发起网络请求,获取网络数据只要客户端能够获取的数据,爬虫都能获取 获取流程: 1.确定目标网站,分...

  • 作业-01获取网络数据的原理

    作业内容回顾 选择某个自己感兴趣的数据领域,写出以下几个方面的内容: - 要爬取的数据类别 - 对应的数据源网站 ...

  • 爬虫笔记(1):网络爬虫实现原理与实现技术

    网络爬虫实现原理详解 通用网络爬虫:获取初始的URL;根据初始的URL爬取页面并获得新的URL;将新的URL放到U...

  • http与https网络请求

    1.爬虫介绍 爬虫spider,获取数据的一种方式,根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. ...

网友评论

    本文标题:爬虫作业01-获取网络数据的原理

    本文链接:https://www.haomeiwen.com/subject/sdumcxtx.html