数据分析学习笔记（2）——爬取拉勾网数据分析师岗位

数据分析学习笔记（2）——爬取拉勾网数据分析师岗位

作者: 小陈学数据 | 来源:发表于2018-09-24 15:33 被阅读129次

数据分析学习笔记（2）——爬取拉勾网数据分析师岗位
2018-12-20
python数据分析项目——拉勾网数据分析职位（一）
Python urllib爬取拉勾网职位信息
第二周作业（1）拉勾网
数据分析岗需求现状分析
拉勾网前端职位数据分析（Excel，Python工具）
从爬取一个网站开始，丰富python的知识点
爬取拉勾网数据分析
拉勾数据职位分析

本次笔记主要记录了本人利用python编写爬虫对拉勾网的数据分析师岗进行爬取，因为打算从事数据分析师这个职业，所以想对这个职业进行一个数据分析。

首先进行数据分析第一步是要获取数据，我选择了从拉勾网进行数据爬取。本次运用到的知识主要是python, html, json。

先进入拉勾网并用Chrome浏览器的开发者工具对页面进行观察。

红色区域即是当前元素所处位置

观察发现其实标签内部数据并不是特别完整，很多数据都被藏在了元素内部，这样想通过Xpath提取会变得非常麻烦和困难，因此尝试其他方法，拉勾网具有反爬技术，为了防止盗链，采用了json页面传输数据，因此我选择去采集json数据。

再进行一次搜索

利用开发者工具找到json页面

检查json数据

发现有完整json数据，因此开始编写爬虫代码对数据进行爬取。

首先要设置要访问的url网址和请求头文件。url网址是要爬取的页面域名，请求头文件则是访问网站时访问者的一些信息，例如用户名，所用浏览器，访问源头等，如果不设置头文件，则很大程度会因为访问频度过高被当作机器人而封杀ip。

先通过开发者工具获取url地址。

随后再通过开发者工具获取请求头文件Request Headers。其中主要是获取User-Agent, Referer 和Cookie。

将以上内容分别写入代码中。

设置url和请求头文件

在发送请求的时候有两种发送参数方式，一种是get，另一种是post。post会以表格发送的方式发送给响应端，无法直接在链接中赋值，因此需要设置一个字典来作为表格数据发送给响应端。从开发者工具中可以看到表格内部的结构和信息。

因此构建一个字典用来存储参数数据。

这里使用request包来发送请求。

发送请求后会得到一个response，同时为了避免编码错误要先将response的编码设置为utf-8。然后利用json包用的json.loads()方法将取得的response转化为字典格式。根据先前对json结构分析，要进入到嵌套字典的最内部才能取得一个result的list。

在取出list以后将值返给函数并进入数据提取阶段。

设置一个字典用以存储所要保存的值。

随后开始批量提取并存储数据。

在主函数中对每一页进行上述操作的循环。

通过改变data中pn的值来进行翻页，同时在循环结束后，先将字典转为DataFrame格式，再用DataFrame中的内置方法进行处理并导出为csv格式文件。最终获取的文件可以用excel打开后效果如下。

由于编码为utf-8因此Excel无法直接读取，在此将文件格式转为ansi以后，再次打开如下。

本章结束，下一章将讲解如何用Excel进行数据清洗和数据分析。

相关文章

数据分析学习笔记（2）——爬取拉勾网数据分析师岗位
本次笔记主要记录了本人利用python编写爬虫对拉勾网的数据分析师岗进行爬取，因为打算从事数据分析师这个职业，所以...
2018-12-20
拉勾网数据分析师薪酬分析数据是拉勾网“数据分析师” 这一职位的信息。主要分析了数据分析师总体薪酬情况、不同城市薪...
python数据分析项目——拉勾网数据分析职位（一）
本项目的数据来源是2019年拉勾网——上海的数据分析岗位的信息首先第一步：爬取数据爬取的代码就不贴上来了，有很...
Python urllib爬取拉勾网职位信息
为了获取拉勾网的招聘信息，对数据分析岗位的基本信息进行爬取。之所以选择拉勾网作为本项目的数据源，主要是因为相对于其...
第二周作业（1）拉勾网
这周老师布置的作业爬取拉勾网上，关于“python工程师”，”数据分析师“的岗位。地点我选的是上海。其实只有45...
数据分析岗需求现状分析
分析背景前几天用爬虫爬了一下拉勾网-北京-数据分析岗位的数据，目的是想了解下北京互联网招聘市场对于数据分析岗位需...
拉勾网前端职位数据分析（Excel，Python工具）
一、使用scrpy爬取拉勾网（厦门地区）前端职位数据数据爬取过程可以参考慕课网教程。使用Excel数据透视表(样...
从爬取一个网站开始，丰富python的知识点
本文从爬取拉勾网的数据开始，会结合后期的文章逐步完善python学习中的各种应用，包括爬虫、数据分析、自动化测试等...
爬取拉勾网数据分析
0. 前言本文从拉勾网爬取深圳市数据分析的职位信息，并以CSV格式保存至电脑，之后进行数据清洗，生成词云，进行描...
拉勾数据职位分析
简介：试着，做了一个拉勾网数据分析师职位的数据分析。其实，虽然很想做数据分析师，但是是跨行，心里相当忐忑，做这个分...

网友评论

呆鸟的Python数据分析

本文标题：数据分析学习笔记（2）——爬取拉勾网数据分析师岗位

本文链接：https://www.haomeiwen.com/subject/unacoftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

呆鸟的Python数据分析

热点阅读

呆鸟的Python数据分析

关于我们|服务条款|联系我们|数据分析学习笔记（2）——爬取拉勾网数据分析师岗位|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！