Task02
1.学习目标
1.1学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值,异常值)
1.2学习了解变量间的相互关系、变量与预测值之间的存在关系
1.3完成相应学习打卡任务
2.内容介绍
2.1数据总体了解:
2.1.1读取数据集并了解数据集大小,原始特征维度;
train集是有80w数据条,48个特征
test_a集是有20w数据条,48个特征
2.1.2通过info熟悉数据类型:
特征变量中大多是是float64型,还有个别是object和int64
2.1.3粗略查看数据集中各特征基本统计量;
有个数,平均数,方差,分位数,最大值和最小值统计
2.2缺失值和唯一值:
2.2.1查看数据缺失值情况
没有数据缺失特别严重的特征
2.2.2查看唯一值特征情况
policyCode为唯一值特征
2.3深入数据-查看数据类型
特征一般都是由类别型特征和数值型特征组成,而数值型特征又分为连续型和离散型。
2.3.1类别型数据
类别型特征有时具有非数值关系,有时也具有数值关系。比如‘grade’中的等级A,B,C等,是否只是单纯的分类,还是A优于其他要结合业务判断。
2.3.2数值型数据
数值型特征本是可以直接入模的,但往往风控人员要对其做分箱,转化为WOE编码进而做标准评分卡等操作。从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定。
1.数值型变量分析,数值型肯定是包括连续型变量和离散型变量的,找出来划分数值型变量中的连续变量和离散型变量
2.看看离散型变量中有没有只有唯一特征值的(无用特征)和特征值比例差距较大的(是否有用待定)
3.查看某一个数值型变量的分布,查看变量是否符合正态分布,如果不符合正太分布的变量可以log化后再观察下是否符合正态分布。
注:如果想统一处理一批数据变标准化 必须把这些之前已经正态化的数据提出
正态化的原因:一些情况下正态非正态可以让模型更快的收敛,一些模型要求数据正态(eg. GMM、KNN),保证数据不要过偏态即可,过于偏态可能会影响模型预测结果。
总结:47列数据中有22列都缺少数据,这在现实世界中很正常。‘policyCode’具有一个唯一值(或全部缺失)。有很多连续变量和一些分类变量。
数据特征查看总结:
上面我们用value_counts()等函数看了特征属性的分布,但是图表是概括原始信息最便捷的方式。
数无形时少直觉。同一份数据集,在不同的尺度刻画上显示出来的图形反映的规律是不一样的。python将数据转化成图表,但结论是否正确需要由你保证。
2.4数据间相关关系
2.4.1特征和特征之间关系
2.4.2特征和目标变量之间关系
2.5用pandas_profiling生成数据报告
(pandas_profiling下载失败)
数据探索性分析是我们初步了解数据,熟悉数据为特征工程做准备的阶段,甚至很多时候EDA阶段提取出来的特征可以直接当作规则来用。可见EDA的重要性,这个阶段的主要工作还是借助于各个简单的统计量来对数据整体的了解,分析各个类型变量相互之间的关系,以及用合适的图形可视化出来直观观察。
网友评论