前言
拉钩这个网站,必须要说一下,十分有趣哇,假如你是爬JAVA的信息,URL地址是这样的
https://www.lagou.com/zhaopin/Java/2/?filterOption=3 这是第二页
为了方便比对,我截第三页的地址
https://www.lagou.com/zhaopin/Java/3/?filterOption=3
怎么看都是很基础的网址结构,小老弟你咋回事呢?
但是如果你找的是爬虫工程师
what????
原来网站已经更新了URL地址,那么真正的URL地址是这样的
https://www.lagou.com/jobs/list_python爬虫?city=广州&cl=false&fromSearch=true&labelWords=&suginput=
那么第二页呢
https://www.lagou.com/jobs/list_python爬虫?city=广州&cl=false&fromSearch=true&labelWords=&suginput=
居然一毛一样,哦阔,完蛋,居然是 AJAX异步加载,那就先避重就轻,看看有没有JSON数据,
打开后
卧槽!禽兽啊居然防爬,行啊,放下手头的工作,虽然只有2页,但我也要把你扒个爽!
网友评论