接上文继续。
这部分主要分析的是影响客户引用等级的因素,因此这里需要要将客户等级变量作为因变量,将年收入、居住程度、教育程度、车辆情况、年龄、保险缴纳、工作年限、信贷情况作为自变量。在算法上,这里采用的是C5.0决策树算法,这个算法在执行效率上和内存方面做了改进,在面对数据遗漏、和输入字段很多的问题上非常稳健,而且通常不需要很多的训练次数做估计运算,提高了运行效率。
运行决策树算法后,得到下图:

在预测变量重要性分布图中,可以看到银行在评判个人用户的信用等级时,最重要的评价因素是用户的年收入,重要性远超过其他变量,次要的因素是工作年限,其次是车辆情况、居住类型、教育程度等;
为了进一步分析银行在评判个人用户信用等级时的关注因素,选择合适的决策层数做分析,有与得到的决策树共有9层,如果全部展开,则得到的决策树不够直观,如果展开层数太少,则不能完整分析变量的重要性,因此需要做一个准确的衡量,这里就对4层展开层做分析:

可以看到年收入越高的用户,评价得到的信用等级整体来说就越高,年收入大于80000和年收入小于80000之间的差别最显著,控制年收入不变的情况下,用户居住类型为自购房、或是有车辆,缴纳了保险,信用等级就越高。
控制其他变量不变的情况下,分析每个变量对用户等级影响的原因:
用户的年收入越高,用户的消费能力就越强,银行能够从这些用户身上获取的收益就越高。银行信用卡业务的目的,就是为银行创造利润,从上图可以看出年收入在50万左右时,为优质客户。同理,对于居住类型和车辆情况来说,自有住房和车辆也被视为优质客户。
通过以上分析,说明个人收入对用户做信用等级评定是最重要的。银行信用卡业务的主要目的是盈利,而个人收入较高的用户,能够给银行带来的收入就越多。因此,银行信用卡等级评级时,主要考虑的因素是用户的个人收入,这是银行首要考虑的因素。
嗯,我会将在接下来的时间给小密圈的小伙伴分分享3个关于数据挖掘的案例,包括对业务的快速理解,对分析指标的准确定位,数据寻找和爬取的方法,数据分析思路和框架的确定,数据建模的过程和步骤,以及注意的要点,数据建模的评估,最后是数据挖掘结果的落地运营,除了分享这3个案例之外,还有之前的课程:
1000个营销软件、100份营销推广案例、10个推广渠道教程、1个学习交流社群
新年大课:巧用搜索引擎1分钟精准找到资料、淘宝半价购物方法课程
不用代码,10分钟会采集微博、微信、知乎、58同城数据和信息
一、银行信用卡欺诈与拖欠行为分析:
1、客户信用等级影响因素
1.1客户信用卡申请数据预处理
1.2信用卡申请成功影响因素
2、信用卡客户信用等级影响因素
3、基于消费的信用等级影响因素
4、信用卡欺诈判断模型
4.1基于Apriori算法的欺诈模型
4.2基于判别的欺诈模型
4.3基于分类算法的欺诈模型
5、欺诈人口属性分析
5.1欺诈人口属性统计分析
5.2基于逻辑回归的欺诈人口属性分析
5.3逾期还款的客户特征
5.4基于决策树分析的逾期客户特征
5.5基于回归分析逾期客户特征
5.6根据消费历史分析客户特征
5.7基于聚类分析客户特征
5.8基于客户细分的聚类分析
二、商务宾馆竞争分析
1、目前经济型酒店行业的竞争态势
2、根据业务和分析目标准备寻找数据
3、通过python编程抓取数据
4、数据初步预处理
5、商务酒店客户数据分析
5.1酒店评分影响因素
5.2酒店评分与酒店业绩关系
5.3酒店评分分析
5.4客户情感分析
5.5商务酒店竞争分
6、根据分析给出相应的建议
三、海底捞火锅运营分析
1、火锅相关业务分析,建立分析指标
2、火锅相关数据抓取
3、数据预处理
4、海底捞运营状态分析
5、店铺选址分析
6、菜品关联销售分析
7、用户评论与评分的关联分析
8、顾客消费后的情感分析
9、海底捞分析的运营建议
网友评论