【图文详解】scrapy爬虫与Ajax动态页面——爬取拉勾网职位

作者: voidsky_很有趣儿 | 来源:发表于2016-05-15 11:15 被阅读7645次

【图文详解】scrapy爬虫与Ajax动态页面——爬取拉勾网职位
【图文详解】scrapy爬虫与Ajax动态页面——爬取拉勾网职位
Python爬虫作业 | 爬取拉勾职位信息-Scrapy版
拉勾爬虫实战
拉勾网职位列表爬取
Python爬虫-拉勾网职位爬取
爬虫之路-1
spynner模拟浏览器爬取链接
Python爬虫入门-scrapy爬取拉勾网
python爬虫07-分析ajax爬取拉勾网职位（一）

5-14更新

注意：目前拉勾网换了json结构，之前是content - result 现在改成了content- positionResult - result,所以大家写代码的时候要特别注意加上一层positionResult的解析。

现在很多网站都用了一种叫做Ajax（异步加载）的技术，就是说，网页打开了，先给你看上面一部分东西，然后剩下的东西再慢慢加载。
所以你可以看到很多网页，都是慢慢的刷出来的，或者有些网站随着你的移动，很多信息才慢慢加载出来。这样的网页有个好处，就是网页加载速度特别快（因为不用一次加载全部内容）。

但是这对我们写爬虫就不方便了，因为你总是爬不到你想要的东西！

我们举个例子，我因为最近想分析拉勾网有关职位情况的数据，所以我上了他们网站：(注意！爬取的内容仅限于学术交流！请勿用于商业用途！)
http://www.lagou.com/zhaopin/

image

可以看到，这里有很多职位信息。注意，这里当我们点下一页

image

我们可以发现，网页地址没有更新就直接加载出来了！！

image

这明显就是一个动态页面，我们写个爬虫来爬一下网页，看看能得到什么内容，现在应该能很快写出（搭出）一个这样的爬虫吧？（其实啥也没有）

image

可以看到输出，你可以把所有源代码浏览一遍，里面没有任何有关职位的信息！

image

如果你觉得不直观，我教你一招，我们简单的把它输出到一个html看看

![](https://raw.githubusercontent.com/hk029/blog/master/爬虫/动态加载网页爬取/1461237819572.png" width=400px />

就是这么个情况。。关键部分呢！空的！！！

image

寻找可以网页

这时候要怎么办呢？难道信息就爬不了吗？？

当然不是，你要想，它只要是显示到网页上了，就肯定在某个地方，只是我们没找到而已。

只不过，这个时候，我们就要费点功夫了。我们还是回到刚才的网页上去点F12，这时候，我们用network功能

image

这时候你可能看到里面没东西，这是因为它只记录打开后的网络资源的信息。
我们按F5刷新一下。

image

你可以看到开始唰唰的刷出东西来了……太快了，我眼睛有点跟不上了，我们等它停下来，我们随便点个资源，会出现右边的框，我们切换到response

image

然后我们就开始找可疑的网页资源。首先，图片，css什么之类的可以跳过，这里有个诀窍，就是一般来说，这类数据都会用json存，所以我们尝试在过滤器中输入json

image

我们发现了2个资源感觉特别像，其中有个名字直接有position，我们点击右键，在新标签页打开看看

![](https://raw.githubusercontent.com/hk029/blog/master/爬虫/动态加载网页爬取/1461238727325.png" width=200px />

虽然看上去很乱（密集恐惧症估计忍不了）但是实际上很有条理，全是键值对应的，这就是json格式，特别适合网页数据交换。

image

这里我们发现就是这个了！所有职位信息都在里面，我们赶紧记录下它的网址

网页构造

通过观察网页地址可以发现推测出：
http://www.lagou.com/jobs/positionAjax.json?这一段是固定的，剩下的我们发现上面有个北京

image

我们把这里改成上海看看，可以看见又出来一个网页内容，刚好和之前网页把工作地改成上海，对应的内容一致

image

所以我们可以得出结论，这里city标签就代表着你选的工作地点，那我们要是把工作经验，学历要求，什么都选上呢？？可以直接看到，网址就变了很多

<img
src="https://raw.githubusercontent.com/hk029/blog/master/爬虫/动态加载网页爬取/1461239055953.png)

我们直接把这些复制到刚才我们找到的网页上

image

可以发现和网页内容一致

image

现在我们可以下结论，我们需要的就是这个网址：
http://www.lagou.com/jobs/positionAjax.json

然后后面可以加这些参数：

gj=应届毕业生&xl=大专&jd=成长型&hy=移动互联网&px=new&city=上海

通过修改这些参数，我们就可以获取不同的职位信息。

<font color=red>注意：</font>这里的构造还比较简单，有时候，有些网址的构造远比这个复杂，经常会出现一些你不知道什么意思的id=什么的，这个时候，可能这个id的可能值可能就在别的文件中，你可能还得找一遍，也可能就在网页源代码中的某个地方。
还有一种情况，可能会出现time=什么的，这就是时间戳，这时候，需要用time函数构造。总之，要具体情况具体分析。

import time
time.time()

编写爬虫

因为这个网页的格式是用的json，那么我们可以用json格式很好的读出内容。
这里我们切换成到preview下，然后点content——result，可以发现出先一个列表，再点开就可以看到每个职位的内容。为什么要从这里看？有个好处就是知道这个json文件的层级结构，方便等下编码。

image

整个处理的代码就那么几句话，可以可出，这里完全和刚才的层级结构是一致的。先content然后result然后是每个职位的信息。

        jdict = json.loads(response.body)
        jcontent = jdict["content"]
        jresult = jcontent["result"]
        for each in jresult:
            print each['city']
            print each['companyName']
            print each['companySize']
            print each['positionName']
            print each['positionType']
            print each['salary']
            print ''

当然还是要引入json

    import json

image

我们可以运行看看效果

![](https://raw.githubusercontent.com/hk029/blog/master/爬虫/动态加载网页爬取/1461242703391.png" width=400px />

然后，我们可以把信息存到文件或者数据库了，那就是之前学过的内容了。

修改items.py

加入你需要的内容

image

修改settings.py

看你是需要存入数据库还是文件，之前都说过了

修改pipelines.py

如果需要加入数据库，这里加上数据库操作，如果需要写入文件，可能不用修改这个文件

修改parse()

把数据加入item，然后yield，大家应该很熟悉了

image

但是，这里还只爬了一个网页的内容，对于更多页面的内容，怎么获取呢？我在下篇博客会有介绍，有兴趣的童鞋可以自己试试看如果获取下一页的内容，用上面教的查找资源的办法。

【图文详解】scrapy爬虫与Ajax动态页面——爬取拉勾网职位
5-14更新注意：目前拉勾网换了json结构，之前是content - result 现在改成了content-...
【图文详解】scrapy爬虫与Ajax动态页面——爬取拉勾网职位
上次挖了一个坑，今天终于填上了，还记得之前我们做的拉勾爬虫吗？那时我们实现了一页的爬取，今天让我们再接再厉，实现多...
Python爬虫作业 | 爬取拉勾职位信息-Scrapy版
由于说到Python爬虫一定绕不过Scrapy框架，所以这次也就尝试将之前的爬虫用Scrapy框架爬取拉勾网,这个...
拉勾爬虫实战
0 引言一次简单的 Python 爬虫练习：输入目标城市和目标职位，从拉勾网爬取相关的职位列表数据...
拉勾网职位列表爬取
三个小爬虫的最后一个是对拉勾网职位列表的爬取，当然这里没有考虑增量爬取，也没有考虑多线程爬取，仅仅是简单的把职位列...
Python爬虫-拉勾网职位爬取
感觉好久没写python了哈哈，最近都在忙工作，所以也是没有学习python。刚好凑巧朋友正在找工作，也是java...
爬虫之路-1
2018/1/21 第一次爬取拉钩一级页面 1. 分析拉勾网页面拉勾网页面使用ajax技术，so,页面内容...
spynner模拟浏览器爬取链接
之前用了scrapy框架谢了一个爬取链接的爬虫，但是不能获取到post的链接，ajax动态加载的链接，一些需要交互...
Python爬虫入门-scrapy爬取拉勾网
之前就爬过拉勾网，但是遇到一些错误一直没有办法解决，果断放弃了，今天又重新试着写写看，对于一个菜鸟来说，真的都是处...
python爬虫07-分析ajax爬取拉勾网职位（一）
想吃石锅鱼，我现在还没吃上饭。。。。拉勾网我想爬好久了，但是苦于不会分析ajax，搁了挺久，现在学会了，终于可以...

网友评论

2f9ceaeb8f63:怎么空了
9c5e2ebf7742:您好~用了您的代码出现这个问题ERROR: Spider error processing <GET http://forbidden.lagou.com/forbidden/fb.html?ip=218.205.222.96> (referer: None)这是要用代理IP吗，可是我在西刺代理查的IP一个都不能用，怎么办呀
小小佐: @doreso 我出现的问题是在解析时老是抛出keyerror:"content"不知道是什么原因？
织雪纱奈:@doreso 坑比
84b11d8c5d42:xici大部分都不能用大概1000个有一个能用吧
我出现的问题是
json回来的数据是{‘success’:'false','msg':'您操作太频繁，请稍后在访问',‘clientIp’:'*******'}
f414291d8172:博主，我想问下~打印response.body之后显示：ip出现异常无法登陆。这个应该怎么解决呀。这个又导致后期的json解析总是报错
9c5e2ebf7742:您好，解决了吗，我也这个问题
5525854b121d:您好po主，好像现在拉钩能直接看到职位了？
chenchao981:博主好帅，mark下慢慢看
Neulana:博主您好，文章很棒很详细！我有个问题想请教您，就是前段时间我在想爬一个需要登录的网站，然后我就查看了它的提交数据，发现其中有一个数据是在每一次提交都会不同，请问这个情况应该怎么处理呢
voidsky_很有趣儿:@加速度猫具体情况具体分析了，一般来说不存在凭空产生的数据，考虑是不是什么 ip或者时间戳？

【图文详解】scrapy爬虫与Ajax动态页面——爬取拉勾网职位

5-14更新

寻找可以网页

网页构造

编写爬虫

修改items.py

修改settings.py

修改pipelines.py

修改parse()

相关文章