Excel是进行数据分析用得最多、最基本的工具,下面内容是运用Excel2013对一份数据分析师招聘网站的数据进行分析。
Excel数据分析的步骤:
1、提出问题(明确数据分析目的)
2、理解数据(理解数据列名的意义)
3、数据清洗(统一格式内容)
4、构建模型(思考用什么样的表现形式把数据呈现出来)
5、数据可视化(把数据转化成图)
一、提出问题
首先要明确这次数据分析的目的是什么?也就是为了解决什么问题?
提出问题:
1、在哪些城市找到数据分师工作的机会比较大?
2、数据分师的薪水如何?
3、根据工作经验的不同,薪酬是怎样变化的?
二、理解数据
![](https://img.haomeiwen.com/i6626611/6d77b47a2cb93272.png)
城市:用于比较不同城市对数据分析师的需求如何
职位所属:分析以后的工作岗位
职位ID:表示职位的唯一表示,也就是每一行数据的唯一标识------用于去掉重复ID
薪水:比较不同城市、和所属领域的薪水区别
工作年限:从时间轴上对比薪资涨幅
三、数据清洗
数据清洗即数据预处理,目的是去掉无效、重复数据,以取得符合我们要求的数据。
![](https://img.haomeiwen.com/i6626611/578dd060adea03be.jpg)
1.选择子集
![](https://img.haomeiwen.com/i6626611/680ddff6b43f9983.png)
2.列名重命名
将不合适的列名更改为我们容易理解的形式。
3.删除重复值
![](https://img.haomeiwen.com/i6626611/5593edec746d89d3.png)
4.缺失值处理
![](https://img.haomeiwen.com/i6626611/0869d5dfe12d79a9.png)
![](https://img.haomeiwen.com/i6626611/44e66b728f896e63.png)
可以看出【城市】这一列缺失2条数据。
一般对缺失值的处理有4种方法,根据情况灵活使用:
① 通过人工手动补全(缺失值较少,并且可以根据其他信息确定该值)
② 删除缺失的数据(无法判断该位置填写何值,或者删除的数据对分析无大的影响
③ 用平均值代替缺失值
④ 用统计模型计算出的值去代替缺失值
![](https://img.haomeiwen.com/i6626611/62ee79dccb620408.png)
![](https://img.haomeiwen.com/i6626611/e11a35c1077babae.png)
![](https://img.haomeiwen.com/i6626611/504091cf73c97c0e.png)
5.一致化处理
(1)对数据进行统一的命名和处理。比如数据中的公司的所属领域是“企业服务,数据服务”,对该列数据进行拆分。
![](https://img.haomeiwen.com/i6626611/c10ca9ac767d0c44.png)
![](https://img.haomeiwen.com/i6626611/d05a68293deb1ce2.png)
![](https://img.haomeiwen.com/i6626611/f193c4d34b7f8d44.png)
![](https://img.haomeiwen.com/i6626611/68d3f848b68a2e72.png)
注意事项:
① 将数据先复制到最后一列(分列功能会覆盖右边单元格),隐藏原始列----进行分列;
② 对拆分出来的一页 添加列名:公司所属领域2,原来列的列名改为公司所属领域1 ,否则数据透视时会出现警告:”数据表字段名无效。
(2)我们将薪水处理成【最低薪水】、【最高薪水】、【平均薪水】,用于存放清洗后的薪水数据。这里有两个方法可以实现:
![](https://img.haomeiwen.com/i6626611/f8342f0019e40df8.png)
第二种是利用函数实现:
![](https://img.haomeiwen.com/i6626611/edfe20e920e8d738.jpg)
FIND函数用来对原始数据中某个字符串进行定位,以确定其位置。FIND函数进行定位时,总是从指定位置开始,返回找到的第一个匹配字符串的位置,而不管其后是否还有相匹配的字符串。
![](https://img.haomeiwen.com/i6626611/f8fccaa6d2c83442.jpg)
![](https://img.haomeiwen.com/i6626611/acdf58ae47ab773d.jpg)
![](https://img.haomeiwen.com/i6626611/1d32f4f35220f502.jpg)
![](https://img.haomeiwen.com/i6626611/346a1edd887462b6.jpg)
![](https://img.haomeiwen.com/i6626611/f004b8f88b97acbd.jpg)
在做的时候会最高薪水这一列出现错误值,使用筛选的功能查找错误值:
![](https://img.haomeiwen.com/i6626611/411ebc720f002594.jpg)
![](https://img.haomeiwen.com/i6626611/bb8cceeed85671ca.jpg)
![](https://img.haomeiwen.com/i6626611/9929fd2175ceed8a.png)
具体操作方法如下:选中最高薪水该列,定位条件为错误。然后delete删除错误值。再在单元格内输入=ctrl+方向键←,让其等于最低薪水;最后Ctrl+enter,批量操作。
在操作的时候会出现数字显示为文本格式,可以选中该列×1,使其转换成数字格式。
当所有操作都完成之后,使用average函数对其求均值。
6.数据排序
![](https://img.haomeiwen.com/i6626611/7f73d496125f958e.png)
![](https://img.haomeiwen.com/i6626611/32b05f50e14f0608.png)
![](https://img.haomeiwen.com/i6626611/73bea53d803ef4cf.png)
7.异常值处理
![](https://img.haomeiwen.com/i6626611/15a401ce937536fd.png)
![](https://img.haomeiwen.com/i6626611/6a68b489f5e51f17.png)
![](https://img.haomeiwen.com/i6626611/61a3b17dfbed2e06.png)
![](https://img.haomeiwen.com/i6626611/c27c482289eadb13.png)
这些异常值需要去掉,应返回原表重新筛查。
步骤:
① 在原表【职位名称】列后插入新的列命名为“数据分析职位名称”;
② 在下方空白单元格插入函数=IF(COUNT(FIND({"数据运营","数据分析","分析师"},L2)),"是","否");
③ 双击单元格右下方进行自动填充;
![](https://img.haomeiwen.com/i6626611/d3c820627389e57b.png)
④ 使用筛选功能,选择“是”,过滤掉异常值。
![](https://img.haomeiwen.com/i6626611/b5a6ad4e644f3a72.png)
四、构建模型及数据可视化
1、在哪些城市找到数据分师工作的机会比较大?
以城市为行标签,工作年限要求为列标签,数据透视分析不同城市对不同年限的数据分析师的需求情况。
![](https://img.haomeiwen.com/i6626611/ed0ef862c5f08843.png)
![](https://img.haomeiwen.com/i6626611/6bc4ed03232e884e.png)
![](https://img.haomeiwen.com/i6626611/fc188d26d5cf7780.png)
![](https://img.haomeiwen.com/i6626611/21ba434375526c84.png)
![](https://img.haomeiwen.com/i6626611/fb5dcb76318f6b96.png)
结论:从数据透视表可以看出,在北京数据分析的岗位最多,往后是上海、深圳、杭州、广州;按工作年限要求来看,3-5年的需求量最大,其次是1-3年,这说明数据分析对年轻人需求将更多。
2、数据分师的薪水如何?
![](https://img.haomeiwen.com/i6626611/195f68971fc5f838.png)
![](https://img.haomeiwen.com/i6626611/e2cff9256743d90d.png)
![](https://img.haomeiwen.com/i6626611/28e2fd88241e9896.png)
![](https://img.haomeiwen.com/i6626611/a1a4c1cc7bb3395b.png)
![](https://img.haomeiwen.com/i6626611/c7a2836d8f297b95.png)
![](https://img.haomeiwen.com/i6626611/00d570a0a189c69b.png)
结论:从上面数据透视结果可以看出,深圳的数据分析师平均薪水最高,其次是北京,上海,杭州。
3、根据工作经验的不同,薪酬是怎样变化的?
![](https://img.haomeiwen.com/i6626611/e1ecb97426aeb5f2.png)
![](https://img.haomeiwen.com/i6626611/a98479ccaa8dbc5e.png)
![](https://img.haomeiwen.com/i6626611/8bf51c537d51a1c6.png)
![](https://img.haomeiwen.com/i6626611/698cdc751de4188b.png)
结论:从上面数据透视结果可以看出,随着工作经验的增长,数据分析师的薪酬也在不断增加。
综合上面三个数据透视结果,我们可以得到以下分析结论:
1)数据分析这一岗位,有大量的工作机会集中在北上广深以及新一线城市,如果将来去这些城市找工作,可以提高求职成功的条件概率。
2)从待遇上看,数据分析师留在深圳发展是个不错的选择,其次是北京、上海。
3)数据分析是个年轻的职业方向,大量的工作经验需求集中在1-5年。
对于数据分析师来说,5年似乎是个瓶颈期,如果在5年之内没有提升自己的能力,大概以后的竞争压力会比较大。
4)随着经验的提升,数据分析师的薪酬也在不断提高,10年以上工作经验的人,能获得相当丰厚的薪酬。
上述操作练习的数据:<u>https://pan.baidu.com/s/12Y3SCvUoFwGdlMcJjerYgw</u>
网友评论