美文网首页
拉勾网网页分析

拉勾网网页分析

作者: SoilWu | 来源:发表于2017-05-15 23:38 被阅读0次

今天想爬取拉勾网的一些数据,但是期间遇到了不少问题,下面简单讲一下思路:

首先我们看一下公司主页,拉到最下面。看看页码为1时网页的url:

页码为1时的页面

我们再看一下页面为2时的页面:

页码为2时的页面

好家伙,页码不一样的时候url是一样的,这时候,就需要我们打开开发者工具来研究一下了。按下F12,按照图中选项勾选,可以得到看到这样的界面:

开发者工具界面

我们可以看到,网页的内容实际上是储存在213-0-0.json中的,我们加上这个后缀看看这个网页是什么:

https://www.lagou.com/gongsi/213-0-0.json

这个网页虽然不好看,但确实包含了我们想要的东西了。但是我们也发现一个问题,无论你切换到第几页,都是显示这个网址!这可咋整!别急,我们还有办法。

我们切换页码后在开发者工具里面看到的几个网址,也还是有一点不一样的,看:

对,就是每个网址的pn参数不一样,在第几页pn就是等于几。我们点一下view source,再看一下情况如何:

可以,我们好像已经得到一个有效的网址后缀了,我们把它输进去试试:

输入网址后缀后的界面

什么鬼,明明pn=2,但是出来的网页还是第一页,看来这个方法也行不通啊。但是,我们还有办法,就是requests函数的params参数,这次我们就在python上看看出来的源码z一不一样!PS:爬取源码需要用到抓包技术,这种文章google上很多,我就不赘述了。

好了,话不多说,我们看看:

params={'first':'false','pn':'1','sortField':'0','havemark':'0'}

cookies和headers自行补充,然后用requests函数访问'https://www.lagou.com/gongsi/213-0-0.json',出来的结果是什么呢?我们看看:

部分输出结果

我们把params中的pn参数改成2,看看怎么样:

部分输出结果

好了,我画圈的部分是不是和上面的不一样了?大功告成啦!

相关文章

  • 拉勾网网页分析

    今天想爬取拉勾网的一些数据,但是期间遇到了不少问题,下面简单讲一下思路: 首先我们看一下公司主页,拉到最下面。看看...

  • 爬虫之路-1

    2018/1/21 第一次 爬取拉钩一级页面 1. 分析拉勾网页面 拉勾网页面使用ajax技术,so,页面内容...

  • 2018-12-20

    拉勾网数据分析师薪酬分析 数据是拉勾网“数据分析师” 这一职位的信息。主要分析了数据分析师总体薪酬情况、不同城市薪...

  • Python爬虫-爬拉勾网

    本周的爬虫作业是爬拉勾网,这次作业跟上周不同的地方在于拉勾有查询的接口,可以直接模拟网页调用拉勾职位查询接口,直接...

  • 你今天扯社会主义收入后腿了么?|2016中国互联网薪资报告

    拉勾网Lagou “2016拉勾网独家发布互联网人薪资报告“涵盖薪资、行业分析、投简历最佳时间等大量数据解读,以拉...

  • 商业数据分析&作业1

    对拉勾招聘网的数据指标分析 数据字典 量度: 维度:

  • 拉勾网数据岗位分析

    从去年起,大数据的概念莫名其妙的就火起来了,淘宝智能推荐、阿尔法dog战败柯洁、滴滴杀熟、Facebook数据门等...

  • 周杰伦入职唯品会,你们怎么看?

    拉勾网Lagou ▌本文作者:yona ▌拉勾网原创出品,转载请注明作者及来源 © 2016 拉勾网保留所有权利 ...

  • 两个人的互联网|青年程序员和他的保洁阿姨

    拉勾网Lagou ▌文 / 拉勾网-互联网行业研究小组Lynn ▌拉勾网原创出品,转载请注明作者及来源 © 201...

  • Python urllib爬取拉勾网职位信息

    为了获取拉勾网的招聘信息,对数据分析岗位的基本信息进行爬取。之所以选择拉勾网作为本项目的数据源,主要是因为相对于其...

网友评论

      本文标题:拉勾网网页分析

      本文链接:https://www.haomeiwen.com/subject/jydkxxtx.html