网页数据在我们的日常研究过程中,越来越常见。从网页上抓包分析的需求,也日趋普遍。
这不,今天刘就遇到这样的问题,他需要从USGS网站上,抓取每日发布的地震数据。
USGS网站关于抓包,我们可以使用chrome浏览器进行,详细操作过程,度娘的 谷歌浏览器chrome怎么抓包,写得比较详细。
1、在Chrome浏览器地址栏输入地址:
2、开启开发者工具
开发者工具3、查看数据通信情况
1)将开发者工具切换至Network页,可查到网页上的数据交换情况;
2)在网页上触发数据交换,点选Radio按钮1 Day,Magnitude 2.5....
3)Network的数据列表中,就呈现当前数据包的情况;
4、查看数据包的信息
单击2.5_day.geojson,在Headers的页签,可以看到它的访问地址及Request Method等相关信息,这里GET就是指这个地址可以在浏览器地址栏上直接使用的意思。Response页,可以查看到当前数据包的,返回的详细数据。可见,这个地址就是我们想要的。
地址:https://earthquake.usgs.gov/earthquakes/feed/v1.0/summary/2.5_day.geojson
5、数据专家中访问
脚本工具栏中,找到“微服务”节点,并创建之,节点编辑器的数据源API文本框中,粘入网页地址,运行节点,即可抓取网页的数据。查看发现,抓取的数据是JSON(JavaScript Object Notation)格式,一种非常用的网页数据交换格式。
微服务6、JSON数据结构化
JSON数据是一种典型的非结构化数据,不适合数据专家处理,我们可使用解析JSON节点,逐层对JSON数据进行解析,使其转换变二维结构化数据。
JSON数据 数据处理流程 三次解析后数据结果小结
网页数据抓包分析,通过模拟浏览器的访问网站过程,获取数据。网站的数据交换方式有多种,本文中的遇到GET是最为简单的方式。同时,网页数据访问,通常需要认证信息,是一个比较复杂的过程。本文中,只是一种最简单的数据抓取分析过程。
网友评论