一、需求描述
(一)任务:给定影响员工离职的因素(工资、出差、是否加班等)和员工是否离职的记录,建立模型预测有可能离职的员工。
(二)数据:1100条训练数据,350条测试数据
(三)31个特征字段说明如下:
31个特征及数据类型描述
二、数据描述
样本总共1100条,其中178条离职记录,在假设抽样的独立随机条件下,得到离职率估计值16.2%。
(一)可视化-大致看一下各特征下变量离职率的变化趋势
从下图能看到有的特征各变量下离职率过高。是由于样本量太小,导致离职率波动太大,不好估计该变量下离职率。因此决定对数量型数据分箱处理。
部分特征下离职率分布趋势
(二)可视化—分箱处理后,部分特征下变量离职率的变化趋势
1. 年龄vs离职
在图中,能看到各个年龄段的取样人数均约大于等于100人,样本量较大。能看到随着年龄的增长,员工稳定性越来越强。26岁前的年轻人离职率较高为36%,其离职率是26至35岁员工的1.5倍多,是35岁后员工的2-3倍,后者分别为20%和9%。
2. 出差vs离职
频繁出差的人离职率约22%,是较少出差人群的1.5倍左右,是从不出差人的3倍左右。后者分别为16%和8%。
3. 加班vs离职
加班的人群离职率约32%,每3个加班员工就有1个要离职。是不加班人群的3倍。
4. 家庭距离vs离职
工作地点离家越远,离职率越高。
5. 部门vs离职
销售部门和人力资源部门的离职率较研发人员要高。
6. 受教育程度vs离职
低学历水平人群离职率较高,最高学历(博士-博后)水平离职率低。中间学历水平暂无明显差异。
7. 工作投入vs离职
对工作投入越多,越不容易离职。消极怠工的员工较易离职,离职率38%。
8. 月收入vs离职
收入越高,越不易离职。底层员工离职率高,流动大,离职率22%。
9. 性别vs离职
男性和女性暂没有太大差别,男性稍高。
三、特征选择
(一)去除存在共线性特征
因共线性存在会影响模型稳定性及参数解读,因此拟合各参数相关系数heatmap。
能看到月收入和职级间相关系数为0.92,线性相关关系强。将删除月收入。
(二)特征筛选
删除了存在单一值对拟合无贡献的部分特征(如是否超过18岁等)。
四、数据预处理
(一)分类变量哑编码
(二)标准化处理
(三)训练集与测试集拆分
五、模型拟合与预测
六、准确率
用拟合好的模型预测测试集350条数据,准确率89.4%。
七、系数解读
通过拟合出的逻辑回归模型,查看相关特征系数。以下为各正特征系数。由于各特征系数与离职率正相关,因此系数越大,代表会使离职率变大。
又由于逻辑回归是非线性函数,因此各特征值变化一个单位,离职率并不总变化固定单位。但当其他特征固定,只看单一特征时,其最大可能引起离职率的变化可以确定。如当其他特征值不变,加班从No变为Yes,最大可引起离职率提高11.8%(根据除4法则)。
因此,做好相应调整和关怀,显得重要。
网友评论