美文网首页数据蛙数据分析每周作业
Kaggle员工离职预测实战(一)

Kaggle员工离职预测实战(一)

作者: 徐_清风 | 来源:发表于2018-12-30 19:40 被阅读12次

    1. 数据来源及背景

    数据来源: https://www.kaggle.com/jiangzuo/hr-comma-sep/version/1

    该数据集包含14999个样本以及10个特征, 通过现有员工已经是否离职的数据, 建立模型预测有可能离职的员工.

    2. 数据概览

    1. 查看前2行和后2行数据

    10个字段分别是: 员工对公司满意度, 最新评价, 项目数, 平均每月工作时长, 工作年限, 是否出现工作事故, 是否离职, 过去5年是否升职, 岗位, 薪资水平.

    image

    可以看到除过岗位以及薪资水平是字符型外, 其余均是数值型.

    1. 查看数据类型等信息
    <class 'pandas.core.frame.DataFrame'>
    RangeIndex: 14999 entries, 0 to 14998
    Data columns (total 10 columns):
    satisfaction_level       14999 non-null float64
    last_evaluation          14999 non-null float64
    number_project           14999 non-null int64
    average_montly_hours     14999 non-null int64
    time_spend_company       14999 non-null int64
    Work_accident            14999 non-null int64
    left                     14999 non-null int64
    promotion_last_5years    14999 non-null int64
    sales                    14999 non-null object
    salary                   14999 non-null object
    dtypes: float64(2), int64(6), object(2)
    memory usage: 1.1+ MB</pre>
    

    前两个特征为浮点型, 后两个为字符型, 其余为整型, 且均无缺失值.

    3). 描述性统计

    满意度: 范围 0.09~1, 中位数0.640, 均值0.613.
    最新评价: 范围 0.36~1, 中位数0.720, 均值0.716
    项目数: 范围 2~7个, 中位数4, 均值3.8
    平均每月工作时长 范围96~310小时, 中位数200, 均值201
    工作年限: 范围2~10年, 中位数3, 均值3.5.
    工作中出现工作事故的占14.46%.
    已经离职的占23.81%.
    过去5年升职的占2.13%.

    image

    员工职业有10个水平, 其中最多的是销售, 多达4140.
    薪资水平共有3个等级, 最多的是低等, 多达7316.

    image

    3. 数据预处理

    没有缺失值, 因此不用处理缺失值. 对于记录来说, 其没有唯一标识的字段, 因此会存在重复记录, 这里采取不处理.

    1. 异常值

    通过箱线图查看异常值.

    除了工作年限外, 其他均无异常值. 该异常值也反映了该公司员工中以年轻人为主

    image

    4. 可视化分析

    1. 人力资源总体情况

    离职3571人,占比23.81%; 在职11428人, 占比76.19%

    image

    2. 对公司满意度与是否离职的关系

    就中位数而言, 离职人员对公司满意度相对较低, 且离职人员对公司满意度整体波动较大. 另外离职人员中没有满意度为1的评价.

    image

    3. 最新考核评估与是否离职的关系

    就中位数而言, 离职人员的最新评价相对较高, 但其波动也大.

    image

    4. 所参加项目与是否离职的关系

    通过下图可以发现以下2点:

    • 离职人员所占比例随着项目数的增多而增大, 2个项目数是特例

    • 离职人员比例较高的项目数2, 6, 7在总项目数中所占百分比相对较少. 项目数为2的这部分人可能是工作能力不被认可, 其离职人数也相对较高; 项目数为6, 7的这部分人则工作能力较强, 其可能在其他企业能有更好的发展, 自然离职比例也相对较高.

    image

    5. 平均每月工作时长和是否离职的关系

    通过下图可以看到: 离职人员的平均每月工作时长相对较长, 每月按照22个工作日计算, 每日工作时数的中位数为10.18小时, 最大值为14.09小时.

    image

    6. 工作年限和是否离职的关系

    通过下图可以得出:

    • 在各工作年限中, 离职人员较集中于3, 4, 5, 6年, 而6年以上则相对稳定

    • 企业中3年人数所占百分比最多, 其次是2年, 主要以年轻人为主

    image

    7. 是否发生工作事故与是否离职的关系

    可以看到少部分出现工作事故, 且其中有较少部分人离职.

    image

    8. 5年内是否升职与是否离职的关系

    5年内多数人没有升职, 离职率就相对较高.

    image

    相关文章

      网友评论

        本文标题:Kaggle员工离职预测实战(一)

        本文链接:https://www.haomeiwen.com/subject/qntblqtx.html