模型背景
1.使用分而治之思想,找到一个分割点,使划分后的数据“纯度”更高
2.通过计算信息熵,找到信息增益最大的参数,即为分割点
3.容易产生过拟合,rpart提供“复杂度损失修剪”方法,参数:
1)偏差小于某个特定值,默认0.01
2)节点中样本量小于某个固定值,默认20
3)当树的深度大于某一个界限值,默认30
业务背景
物流客户中,中小客户划分给电话销售管理,通过电话管理客户,其中一部分客户活跃度很低,划分为微型客户MC,由一个销售(MCE)管理,通常只是接电话,主要通过EDM和邮件批量主动联系客户。
年底的时候,我们通常需要找到微小客户MC,划分到单独的销售管理。我们经常遇到的挑战是,如果我们将过多的MC分给了普通电话销售(TSE),那么将给TSE带来低效的业务客户,产出低,耗费额外精力;如果误将TS客户分给了MCE,那么很可能由于没有提供相应的管理和服务,导致客户流失。
过往来看,主要是按照当年月均收入来判断,当月均收入低于500,将划分为MCE管理,实际上发现,每年做的Rankup数量挺多的,划分不够合理。
数据处理
1.使用决策树模型进行分类,建立分类模型
2.取两年数据,用第二年的实际值来判定是否划分MC,如果第二年月均大于500,标记Y,否则标记N
3.特征值取第一年的发件行为数据,包括有发件月数,平均每个月票数spm,平均每票重量kps,平均每公斤卖价rpk
模型验证与调优
1.随机取1/10作为验证,9/10建立模型
2.预测评估模型
R语言
使用R语言的rpart包中的rpart函数,基于CART算法的分类回归树模型
用prune剪枝
用predict进行预测
网友评论