DatistEQ之网页抓包分析

作者: 了无_数据科学 | 来源:发表于2020-09-01 22:30 被阅读0次

    网页数据在我们的日常研究过程中,越来越常见。从网页上抓包分析的需求,也日趋普遍。

    这不,今天刘就遇到这样的问题,他需要从USGS网站上,抓取每日发布的地震数据。

    USGS网站

    关于抓包,我们可以使用chrome浏览器进行,详细操作过程,度娘的 谷歌浏览器chrome怎么抓包,写得比较详细。

    1、在Chrome浏览器地址栏输入地址:

    https://earthquake.usgs.gov/earthquakes/map/?extent=-88.14489,-120.9375&extent=88.14489,509.0625&range=month&magnitude=significant&baseLayer=satellite&settings=true

    2、开启开发者工具

    开发者工具

    3、查看数据通信情况

    1)将开发者工具切换至Network页,可查到网页上的数据交换情况;
    2)在网页上触发数据交换,点选Radio按钮1 Day,Magnitude 2.5....
    3)Network的数据列表中,就呈现当前数据包的情况;

    Network页

    4、查看数据包的信息

    单击2.5_day.geojson,在Headers的页签,可以看到它的访问地址及Request Method等相关信息,这里GET就是指这个地址可以在浏览器地址栏上直接使用的意思。Response页,可以查看到当前数据包的,返回的详细数据。可见,这个地址就是我们想要的。
    地址:https://earthquake.usgs.gov/earthquakes/feed/v1.0/summary/2.5_day.geojson

    地址信息 返回值信息

    5、数据专家中访问

    脚本工具栏中,找到“微服务”节点,并创建之,节点编辑器的数据源API文本框中,粘入网页地址,运行节点,即可抓取网页的数据。查看发现,抓取的数据是JSON(JavaScript Object Notation)格式,一种非常用的网页数据交换格式。

    微服务

    6、JSON数据结构化

    JSON数据是一种典型的非结构化数据,不适合数据专家处理,我们可使用解析JSON节点,逐层对JSON数据进行解析,使其转换变二维结构化数据。

    JSON数据 数据处理流程 三次解析后数据结果

    小结

    网页数据抓包分析,通过模拟浏览器的访问网站过程,获取数据。网站的数据交换方式有多种,本文中的遇到GET是最为简单的方式。同时,网页数据访问,通常需要认证信息,是一个比较复杂的过程。本文中,只是一种最简单的数据抓取分析过程。

    相关文章

      网友评论

        本文标题:DatistEQ之网页抓包分析

        本文链接:https://www.haomeiwen.com/subject/qksbsktx.html