用Python爬取了拉勾网的招聘信息，我发现了一个惊人的秘密

作者: Python程序猿 | 来源:发表于2018-04-30 22:52 被阅读16次

用Python爬取了拉勾网的招聘信息，我发现了一个惊人的秘密
区块链招聘信息爬取与分析
node.js爬虫爬取拉勾网职位信息
Python-爬取拉勾网招聘信息
上网找工作难？Python数据分析师爬虫拉勾网，帮你找工作一步到
实战面试一
Python urllib爬取拉勾网职位信息
.Net实现拉勾网爬虫
python爬取拉勾网招聘数据
Python、Java 薪资最高，C# 垫底：分析什么编程语言最

关于

一直埋头学习，不知当前趋势，这是学习一门技术过程中最大的忌讳。刚好利用python爬虫，抓取一下拉勾网关于python职位的一些基本要求，不仅能知道岗位的基本技能要求，还能锻炼一下代码能力，学以致用，一举两得。

准备

工具：python 2.7,PyCharm

类库：urllib2、BeautifulSoup、time、re、sys、json、collections、xlsxwriter

分析及代码实现

进入拉勾网进行分析，要想获取每个岗位的关键词，首先要知道每个岗位详情页面的url，通过对比我们发现，https://www.lagou.com/jobs/4289433.html中，只有4289433这一串数字是不同的，那么就可以知道我们只要获取到每个岗位的这一串数字，我们就可以爬取每个岗位详情页面。在这里还是要推荐下我自己建的Python开发学习群:483546416，群里都是学Python开发的，如果你正在学习Python ，小编欢迎你加入，大家都是软件开发党，不定期分享干货（只有Python软件开发相关的），包括我自己整理的一份2018最新的Python进阶资料和高级开发教程，欢迎进阶中和进想深入Python的小伙伴

通过F12查看，我们可以看到xhr请求中https://www.lagou.com/jobs/positionAjax.json?px=default&city=%E5%8C%97%E4%BA%AC&needAddtionalResult=false的响应消息里的参数positionId的值为详情页面url的那串数字，如下图

，那么接下来我们就爬取这个请求来获取所有的positionId。

首先我们通过分析可以看到这是个post请求且form的参数为first、pn、kd，通过不同岗位列表页面的请求，我们可以看到first的取值逻辑是pn为1的时候，first为true，当pn不为1的时候，first的取值为false（其中pn为岗位列表的页数），还有kd为一个固定值（这里是python）

def get_positionId(pn): positionId_list = [] url = 'https://www.lagou.com/jobs/positionAjax.json?px=default&city=%E5%8C%97%E4%BA%AC&needAddtionalResult=false' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36', 'Referer': 'https://www.lagou.com/jobs/list_Python?px=default&city=%E5%8C%97%E4%BA%AC' } if pn == 1: first = 'true' else: first = 'false' data = {'first': first, 'pn': pn, 'kd':kd #这里取变量值，可以获取不同岗位的关键词 } page = get_page(url, headers, data) if page == None: return None max_pageNum = get_pageSize(page) result = page['content']['positionResult']['result'] for num in range(0, max_pageNum): positionId = result[num]['positionId'] positionId_list.append(positionId) return positionId_list #该函数返回一个列表页的所有岗位的positionId

在获取到每个岗位的positionId后，我们就可以根据获取到的positionId进行拼接得到每个岗位详情页面的url，然后爬取这些url，来获取每个岗位的关键词（这里还有一个比较坑人的地方就是通过爬取来的网页内容和通过定位得到的内容竟然是不一样的，害的我纠结了好久），分析该网页如下图：

具体的实现如下：

#获取每个岗位的职位要求def get_content(positionId): url = 'https://www.lagou.com/jobs/%s.html' %(positionId) headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36', 'Referer': 'https://www.lagou.com/jobs/list_Python?px=default&city=%E5%8C%97%E4%BA%AC' } page = get_page(url,headers,data=0) soup = Bs(page, 'html.parser') content = soup.find('dd', class_='job_bt').get_text() return content

接下来就是对获取到的岗位描述进行过滤处理，来获取英文关键词，实现如下：

#对获取的关键词列表进行过滤去重，获取top50的关键词#处理岗位描述，获取英文关键词def get_keyword(content): pattern = re.compile('[a-zA-Z]+') keyword = pattern.findall(content) return keyword

然后，在通过collections中的Counter模块获取到这些英文关键词中的top50，实现如下：

#对获取的关键词列表进行过滤去重，获取top50的关键词def parser_keyword(keyword_list): for i in range(len(keyword_list)): keyword_list[i] = keyword_list[i].lower() keyword_top = Counter(keyword_list).most_common(50) return keyword_top

最后把top50的关键词保存到Excel中，并且生成分析图，实现如下：

#数据保存到Excel中，并且生成报表。def save_excel(keyword_top): row = 1 col = 0 workbook = xlsxwriter.Workbook('lagou.xlsx') worksheet = workbook.add_worksheet('lagou') worksheet.write(0, col, u'关键词') worksheet.write(0, col+1, u'频次') for name, num in keyword_top: worksheet.write(row, col, name) worksheet.write(row, col+1, num) row += 1 chart = workbook.add_chart({'type': 'area'}) chart.add_series({ 'categories': 'lagou!$A$2:$A$51', 'values': 'lagou!$B$2:$B$51' }) chart.set_title({'name': u'关键词排名'}) chart.set_x_axis({'name': u'关键词'}) chart.set_y_axis({'name': u'频次（/次）'}) worksheet.insert_chart('C2', chart, {'x_offset':15, 'y_offset':10}) workbook.close()

结果

具体生成的分析图如下：