二、数据理解与数据准备
在数据理解与数据准备阶段,对数据做初步的探索性分析,了解数据质量状况,考察数据的大致分布情况,此外还要将各方面的数据合并,整理成可以进行数据挖掘的宽表形式(即行代表记录、列代表变量的二维表),并进一步根据业务上的考虑,生成一些有业务含义的衍生变量。
1、分析的数据基础
(1)数据表1: 客户基本信息表(custinfo.csv)
(2)数据表2: 客户通话情况表(custcall.csv)
这张表是客户的月度通话行为数据,根据客户通话详单记录汇总而来。高峰时期是指典型的工作时间(周一至周五早8:00至晚6点),非高峰时间是指典型的不含周末的非工作时间(周一早0:00至早8:00、周一至周四晚6点至次日早8点和周五晚6点至周五晚 24:00),周末时间是指周六早0:00至周日晚24:00的时间。具体变量含义及取值范围见下表:
(3)数据表3:客户是否流失标记表(churn.csv)
(4)数据表4: 话费方案表(tari行.csv)
这张表是话费方案衰,也就是营销中所谓的套餐规则。假设话费方案的形式相同,都是每个月交一定的固定费用,会送一定的免费国内通话时间,超过该时间段部分会按照高峰时期、非高峰时期和周末进行计费,另外国际长途也会根据通话方案的不同,按照不同的标准收费,具体变量含义及取值范围参见下表:
2、生成数据挖掘表
从业务系统中取出的数据都是根据业务的需要考虑设计的,但往往不能达到取得良好 数据挖掘结果的目的,这时需要对数据进行各种变换或者生成相关的衍生变量。
在数据准备过程中,从业务和数据分析的角度出发,对数据做了如下处理:
• 将客户6个月的各类通话行为数据进行月度汇总,生成若干汇总变量,这些变量体现了客户通话行为的绝对值状况。主要有以下指标数据:
1)高峰时期、非高峰时期、周末时期电话数
2)高峰时期、非高峰时期、周末时期通话时长
3)国际电话时长
4)国内电话话费
• 生成若干比例指标和强度相对指标,用来反映客户通话情况的相对值状况,包括如下内容11个指标:
1)国内电话数合计、国内通话时长合计、所有通话时长合计
2)高峰时期、非高峰时期、周末时期、全部国内平均每次通话时长
3)高峰时期、非高峰时期、周末时期通话时长占比(与国内通话时长比)以及国际通话时长占比
• 生成若干反映客户话费状况的指标,尤其是其中的话费方案合理性指标,反映了客户选择的话费方案是否与客户的实际消费状况相匹配,主要如下内容6个指标:
1)客户付费通话时长
2)客户国内实际通话费用及总通话费用
3)平均每分钟国内通话成本与平均每分钟总通话成本
4)话费方案是否合理标记变量
• 生成若干反映客户通话行为趋势和波动状况的指标,包括如下内容6个指标:
1)高峰时期通话时长趋势与波动
2)非高峰时期通话时长趋势与波动
3)周末时期通话时长趋势与波动。
网友评论