美文网首页
逻辑回归算法预测员工离职率

逻辑回归算法预测员工离职率

作者: 钱殿下与啦啦 | 来源:发表于2021-04-22 11:49 被阅读0次

    一、需求描述

    (一)任务:给定影响员工离职的因素(工资、出差、是否加班等)和员工是否离职的记录,建立模型预测有可能离职的员工。

    (二)数据:1100条训练数据,350条测试数据

    (三)31个特征字段说明如下:

    31个特征及数据类型描述

    二、数据描述

        样本总共1100条,其中178条离职记录,在假设抽样的独立随机条件下,得到离职率估计值16.2%。

    (一)可视化-大致看一下各特征下变量离职率的变化趋势

        从下图能看到有的特征各变量下离职率过高。是由于样本量太小,导致离职率波动太大,不好估计该变量下离职率。因此决定对数量型数据分箱处理。

    部分特征下离职率分布趋势

    (二)可视化—分箱处理后,部分特征下变量离职率的变化趋势

    1. 年龄vs离职

        在图中,能看到各个年龄段的取样人数均约大于等于100人,样本量较大。能看到随着年龄的增长,员工稳定性越来越强。26岁前的年轻人离职率较高为36%,其离职率是26至35岁员工的1.5倍多,是35岁后员工的2-3倍,后者分别为20%和9%。

    2. 出差vs离职 

        频繁出差的人离职率约22%,是较少出差人群的1.5倍左右,是从不出差人的3倍左右。后者分别为16%和8%。

    3. 加班vs离职

        加班的人群离职率约32%,每3个加班员工就有1个要离职。是不加班人群的3倍。

    4. 家庭距离vs离职

        工作地点离家越远,离职率越高。

    5. 部门vs离职

        销售部门和人力资源部门的离职率较研发人员要高。

    6. 受教育程度vs离职

        低学历水平人群离职率较高,最高学历(博士-博后)水平离职率低。中间学历水平暂无明显差异。

    7.  工作投入vs离职

        对工作投入越多,越不容易离职。消极怠工的员工较易离职,离职率38%。

    8. 月收入vs离职

        收入越高,越不易离职。底层员工离职率高,流动大,离职率22%。

    9. 性别vs离职

        男性和女性暂没有太大差别,男性稍高。

    三、特征选择

    (一)去除存在共线性特征

        因共线性存在会影响模型稳定性及参数解读,因此拟合各参数相关系数heatmap。 

        能看到月收入和职级间相关系数为0.92,线性相关关系强。将删除月收入。

    (二)特征筛选

        删除了存在单一值对拟合无贡献的部分特征(如是否超过18岁等)。

    四、数据预处理

    (一)分类变量哑编码

    (二)标准化处理

    (三)训练集与测试集拆分

    五、模型拟合与预测

    六、准确率

        用拟合好的模型预测测试集350条数据,准确率89.4%。

    七、系数解读

        通过拟合出的逻辑回归模型,查看相关特征系数。以下为各正特征系数。由于各特征系数与离职率正相关,因此系数越大,代表会使离职率变大。

        又由于逻辑回归是非线性函数,因此各特征值变化一个单位,离职率并不总变化固定单位。但当其他特征固定,只看单一特征时,其最大可能引起离职率的变化可以确定。如当其他特征值不变,加班从No变为Yes,最大可引起离职率提高11.8%(根据除4法则)。

        因此,做好相应调整和关怀,显得重要。

    相关文章

      网友评论

          本文标题:逻辑回归算法预测员工离职率

          本文链接:https://www.haomeiwen.com/subject/aqbxrltx.html