美文网首页数据蛙数据分析每周作业
Kaggle员工离职预测实战(一)

Kaggle员工离职预测实战(一)

作者: 徐_清风 | 来源:发表于2018-12-30 19:40 被阅读12次

1. 数据来源及背景

数据来源: https://www.kaggle.com/jiangzuo/hr-comma-sep/version/1

该数据集包含14999个样本以及10个特征, 通过现有员工已经是否离职的数据, 建立模型预测有可能离职的员工.

2. 数据概览

  1. 查看前2行和后2行数据

10个字段分别是: 员工对公司满意度, 最新评价, 项目数, 平均每月工作时长, 工作年限, 是否出现工作事故, 是否离职, 过去5年是否升职, 岗位, 薪资水平.

image

可以看到除过岗位以及薪资水平是字符型外, 其余均是数值型.

  1. 查看数据类型等信息
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14999 entries, 0 to 14998
Data columns (total 10 columns):
satisfaction_level       14999 non-null float64
last_evaluation          14999 non-null float64
number_project           14999 non-null int64
average_montly_hours     14999 non-null int64
time_spend_company       14999 non-null int64
Work_accident            14999 non-null int64
left                     14999 non-null int64
promotion_last_5years    14999 non-null int64
sales                    14999 non-null object
salary                   14999 non-null object
dtypes: float64(2), int64(6), object(2)
memory usage: 1.1+ MB</pre>

前两个特征为浮点型, 后两个为字符型, 其余为整型, 且均无缺失值.

3). 描述性统计

满意度: 范围 0.09~1, 中位数0.640, 均值0.613.
最新评价: 范围 0.36~1, 中位数0.720, 均值0.716
项目数: 范围 2~7个, 中位数4, 均值3.8
平均每月工作时长 范围96~310小时, 中位数200, 均值201
工作年限: 范围2~10年, 中位数3, 均值3.5.
工作中出现工作事故的占14.46%.
已经离职的占23.81%.
过去5年升职的占2.13%.

image

员工职业有10个水平, 其中最多的是销售, 多达4140.
薪资水平共有3个等级, 最多的是低等, 多达7316.

image

3. 数据预处理

没有缺失值, 因此不用处理缺失值. 对于记录来说, 其没有唯一标识的字段, 因此会存在重复记录, 这里采取不处理.

1. 异常值

通过箱线图查看异常值.

除了工作年限外, 其他均无异常值. 该异常值也反映了该公司员工中以年轻人为主

image

4. 可视化分析

1. 人力资源总体情况

离职3571人,占比23.81%; 在职11428人, 占比76.19%

image

2. 对公司满意度与是否离职的关系

就中位数而言, 离职人员对公司满意度相对较低, 且离职人员对公司满意度整体波动较大. 另外离职人员中没有满意度为1的评价.

image

3. 最新考核评估与是否离职的关系

就中位数而言, 离职人员的最新评价相对较高, 但其波动也大.

image

4. 所参加项目与是否离职的关系

通过下图可以发现以下2点:

  • 离职人员所占比例随着项目数的增多而增大, 2个项目数是特例

  • 离职人员比例较高的项目数2, 6, 7在总项目数中所占百分比相对较少. 项目数为2的这部分人可能是工作能力不被认可, 其离职人数也相对较高; 项目数为6, 7的这部分人则工作能力较强, 其可能在其他企业能有更好的发展, 自然离职比例也相对较高.

image

5. 平均每月工作时长和是否离职的关系

通过下图可以看到: 离职人员的平均每月工作时长相对较长, 每月按照22个工作日计算, 每日工作时数的中位数为10.18小时, 最大值为14.09小时.

image

6. 工作年限和是否离职的关系

通过下图可以得出:

  • 在各工作年限中, 离职人员较集中于3, 4, 5, 6年, 而6年以上则相对稳定

  • 企业中3年人数所占百分比最多, 其次是2年, 主要以年轻人为主

image

7. 是否发生工作事故与是否离职的关系

可以看到少部分出现工作事故, 且其中有较少部分人离职.

image

8. 5年内是否升职与是否离职的关系

5年内多数人没有升职, 离职率就相对较高.

image

相关文章

  • Kaggle员工离职预测实战(一)

    1. 数据来源及背景 数据来源: https://www.kaggle.com/jiangzuo/hr-comma...

  • kaggle案例:员工离职预测 (附视频)

    欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞...

  • kaggle 机器学习 -- 房屋价格预测

    房价预测 背景kaggle 房屋价格预测最近想去kaggle找几个项目做做,提升自己的实战能力,就把这个入门级的房...

  • kaggle.回归问题.2018-04-16

    详解 Kaggle 房价预测竞赛优胜方案:用 Python 进行全面数据探索Kaggle实战之一回归问题使用skl...

  • 员工离职也能用数据分析预测啦

    对于数据分析感兴趣的朋友请看这文章,带你实战,如何用数据分析进行员工离职预测,技能学到知识也能通过数据发现员工离职...

  • 员工离职原因数据分析|python

    一、分析目的 数据源自kaggle,通过分析了解员工离职的原因,为降低员工离职率的举措提供数据支撑。 二、数据处理...

  • 员工离职预测

    1.项目目标 在任何一家企业里,员工队伍的稳定性对于企业的发展都非常的重要。所以通过模型预测员工离职的价值就日益凸...

  • 员工离职探究

    根据Kaggle:Human Resource Analysis的数据对员工离职情况作了简单的分析。 1、数据集介...

  • 逻辑回归算法预测员工离职率

    一、需求描述 (一)任务:给定影响员工离职的因素(工资、出差、是否加班等)和员工是否离职的记录,建立模型预测有可能...

  • 逻辑回归算法预测员工离职率

    一、需求描述 (一)任务:给定影响员工离职的因素(工资、出差、是否加班等)和员工是否离职的记录,建立模型预测有可能...

网友评论

    本文标题:Kaggle员工离职预测实战(一)

    本文链接:https://www.haomeiwen.com/subject/qntblqtx.html