1. 数据来源及背景
数据来源: https://www.kaggle.com/jiangzuo/hr-comma-sep/version/1
该数据集包含14999个样本以及10个特征, 通过现有员工已经是否离职的数据, 建立模型预测有可能离职的员工.
2. 数据概览
- 查看前2行和后2行数据
10个字段分别是: 员工对公司满意度, 最新评价, 项目数, 平均每月工作时长, 工作年限, 是否出现工作事故, 是否离职, 过去5年是否升职, 岗位, 薪资水平.
image可以看到除过岗位以及薪资水平是字符型外, 其余均是数值型.
- 查看数据类型等信息
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14999 entries, 0 to 14998
Data columns (total 10 columns):
satisfaction_level 14999 non-null float64
last_evaluation 14999 non-null float64
number_project 14999 non-null int64
average_montly_hours 14999 non-null int64
time_spend_company 14999 non-null int64
Work_accident 14999 non-null int64
left 14999 non-null int64
promotion_last_5years 14999 non-null int64
sales 14999 non-null object
salary 14999 non-null object
dtypes: float64(2), int64(6), object(2)
memory usage: 1.1+ MB</pre>
前两个特征为浮点型, 后两个为字符型, 其余为整型, 且均无缺失值.
3). 描述性统计
满意度: 范围 0.09~1, 中位数0.640, 均值0.613.
最新评价: 范围 0.36~1, 中位数0.720, 均值0.716
项目数: 范围 2~7个, 中位数4, 均值3.8
平均每月工作时长 范围96~310小时, 中位数200, 均值201
工作年限: 范围2~10年, 中位数3, 均值3.5.
工作中出现工作事故的占14.46%.
已经离职的占23.81%.
过去5年升职的占2.13%.
员工职业有10个水平, 其中最多的是销售, 多达4140.
薪资水平共有3个等级, 最多的是低等, 多达7316.
3. 数据预处理
没有缺失值, 因此不用处理缺失值. 对于记录来说, 其没有唯一标识的字段, 因此会存在重复记录, 这里采取不处理.
1. 异常值
通过箱线图查看异常值.
除了工作年限外, 其他均无异常值. 该异常值也反映了该公司员工中以年轻人为主
image4. 可视化分析
1. 人力资源总体情况
离职3571人,占比23.81%; 在职11428人, 占比76.19%
image2. 对公司满意度与是否离职的关系
就中位数而言, 离职人员对公司满意度相对较低, 且离职人员对公司满意度整体波动较大. 另外离职人员中没有满意度为1的评价.
image3. 最新考核评估与是否离职的关系
就中位数而言, 离职人员的最新评价相对较高, 但其波动也大.
image4. 所参加项目与是否离职的关系
通过下图可以发现以下2点:
-
离职人员所占比例随着项目数的增多而增大, 2个项目数是特例
-
离职人员比例较高的项目数2, 6, 7在总项目数中所占百分比相对较少. 项目数为2的这部分人可能是工作能力不被认可, 其离职人数也相对较高; 项目数为6, 7的这部分人则工作能力较强, 其可能在其他企业能有更好的发展, 自然离职比例也相对较高.
5. 平均每月工作时长和是否离职的关系
通过下图可以看到: 离职人员的平均每月工作时长相对较长, 每月按照22个工作日计算, 每日工作时数的中位数为10.18小时, 最大值为14.09小时.
image6. 工作年限和是否离职的关系
通过下图可以得出:
-
在各工作年限中, 离职人员较集中于3, 4, 5, 6年, 而6年以上则相对稳定
-
企业中3年人数所占百分比最多, 其次是2年, 主要以年轻人为主
7. 是否发生工作事故与是否离职的关系
可以看到少部分出现工作事故, 且其中有较少部分人离职.
image8. 5年内是否升职与是否离职的关系
5年内多数人没有升职, 离职率就相对较高.
image
网友评论