经过三部曲之后,f1的最大值是63%,随机森林产生的,尝试通过算法方向进行优化,比如神经网络,但是只有58%,感觉算法方向走不远,回到数据本身,试试特征方向。
一、比对离网客户三个月前和当月的GPRS和MOU
上三月的数据明显离散一些,而当月都明显存在往原点和两个轴的方向收缩。
离网客户三个月前的情况.png 离网客户当月的情况.png二、比对离网客户两个月前和当月的ARPU和主叫次数
出现类似上面的情况。
image.png image.png三、再看看特征随时间的变化
data_leave = copy.copy(data[data['yonghuzhuangtai']==1])
print(data_leave['dangyueARPU'].describe())
print(data_leave['shang2yueARPU'].describe())
print('------------------------------------------')
data_stay = copy.copy(data[data['yonghuzhuangtai']!=1])
print(data_stay['dangyueARPU'].describe())
print(data_stay['shang2yueARPU'].describe())
离网用户的arpu值变化.png
留存用户的arpu值变化.png
离网用户的arpu由两个月前的37.9元均值,变成当月的10.4元,下降较存量客户明显很多。再看看主叫次数,离网客户的主叫次数由两个月前的12.6次下降到当月的3.6次,而留存客户基本没变。
离网用户的主叫次数变化.png 留存用户的主叫次数变化..png四、尝试生成的特征。
1、先针对主叫次数
生成当月与上2月的差额和是否下降的标记,有量化也有定性两种。
data['zhujiaocishu_xiahua'] = data['zhujiaocishu']-data['shang2yuezhujiaocishu']
data['zhujiaocishu_xiahua_label'] = data['zhujiaocishu_xiahua']<0
data['zhujiaocishu_xiahua_label']=data['zhujiaocishu_xiahua_label'].map({False:0,True:1})
主通次数减少的人数大概也是一半了,离网客户在主通次数减少的维度稍微多点,但是还是不明显啊。也先试试跑。
image.png随机森立,默认参数跑跑。
- 增加特征前:f1 score = 0.5961244263131056
- 增加特征后:f1 score = 0.6011560693641618
有0.5%的提升。可以继续走这个方向。
2、双降客户试试
变化不大。
网友评论