流程
image.png数据分箱 Bining
就是数据分组,数据预处理技术,如果是学图像算法的工程师,图像的分割就是一种数据分箱技术。图像模糊技术,把相邻像素合并为1个像素数值,也是分箱算法的应用。
常用的分箱算法:(todo)
- 无监督:等宽、等频、聚类(k-means)
- 有监督:卡方分箱法、单变量决策树算法(ID3、C4.5、CART)、IV最大化分箱法、best-ks分箱法
WOE 和 IV
- IV的全称是Information Value,中文意思是信息价值,或者信息量
- 理解方式:如果学习过《信息论》知道信息量还可以用一个指标来衡量“熵”,所以理解IV的计算公式可以借用“熵”的理解,越混乱,信息越少。
- 用途:变量很多的时候,用于变量的筛选
- 联想:变量筛选的其他方式:PCA
- 变量筛选需要考虑的事情:
- 变量的预测能力,IV,信息增益,基尼系数等
- 变量的相关性,图像算法中的 PCA做的事情
- 变量的简单性,容易生成和使用
- 变量的强壮性,不容易被绕过
- 变量的业务可解释性
- 等等
WOE的计算(WOE转换)
WOE的计算是IV计算的基础
WOE的全称是“Weight of Evidence”,即证据权重。
要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱等等,说的都是一个意思)
分组后,对于第i组
pyi: 是这个组中(违约客户)占(总体违约客户)的比例,或者是 目标为 1 的用户占比
pni:是这个组中(未违约客户)占(总体未违约客户)的比例,或者是 目标为 0 的用户占比.
-
公式的理解:当前分组中,“违约客户占总体违约客户比”和“未违约客户占总体未违约客户比”的差异。
从对数的函数曲线可以看出,差异越大,WOEi的绝对值越大。
image.png
IV的计算
一个特征变量的IV如下:
Vi是在每个分箱中的IV值,计算方式如下:
image.png
IV的改进
- IV出现正负无穷,计算没有意义。改进:
- 1 分组不允许出现概率0和100%的情况
- 分组设置最小长度,避免分组中没有样本,或者样本过小
逻辑回归
(todo)
相关系数
协方差
image.png- 如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y]。
- 但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。
- 协方差和方差之间有若干性质,可用于编程优化,这里不详述。
Pearson相关系数 (Pearson CorrelationCoefficient)
-
用途:两个数据集合是否在一条线上面,它用来衡量定距变量(数字型)间的线性关系
-
公式:
image.png -
公式含义:【协方差】cov(X,Y)除以各自【标准差】的乘积(σX,σY)。系数的取值总是在-1.0到1.0之间,接近0的变量被成为无相关性,接近1或者-1被称为具有强相关性
-
数据集假设
- 实验数据通常假设是成对的来自于【正态分布的总体】。为啥通常会假设为正态分布呢?因为我们在求皮尔森相关性系数以后,通常还会用t检验之类的方法来进行皮尔森相关性系数检验,而 t检验是基于数据呈正态分布的假设的
- 【对噪声敏感】,实验数据之间的差距不能太大,或者说皮尔森相关性系数受异常值的影响比较大。例如心跳与跑步的例子,万一这个人的心脏不太好,跑到一定速度后承受不了,突发心脏病,那这时候我们会测到一个偏离正常值的心跳(过快或者过慢,甚至为0),如果我们把这个值也放进去进行相关性分析,它的存在会大大干扰计算的结果的。
VIF 方差膨胀系数(variance inflation factor)
-
定义:衡量多元线性回归模型中复 (多重)共线性严重程度的一种度量。它表示回归系数估计量的方差与假设自变量间不线性相关时方差相比的比值。
image.png -
R^2的计算方式有两种:复相关系数和SSR/SST
https://cloud.tencent.com/developer/news/71265
复相关系数
变量x1和变量的估计值 x11(打不来这个符号,自己领会一下)之间的相关系数。
举例,假如有3个变量x1,x2,x3
image.png
- x1的计算步骤如下:
计算x1对于x2和x3的线性回归得到x1的拟合数值公式(就是求出线性回归方程的系数),比如:
X(^)1=0.0572X2+1.5178X3-3.8466 -
用拟合方程算出每个x1的估计值X(^)1
image.png - 利用前面相关系数的计算公式:
得到r(X1,X(^)1)=0.9694,那么R2= r(X1,X(^)1)2=0.9398
SSR/SST计算方法
image.pngimage.png
SST、SSR、SSE分别指的是总平方和、回归平方和和残差平方和。其中SST为因变量和因变量均值之差的平方和,SSR为自变量拟合结果和因变量均值之差的平方和,SSE为因变量和自变量拟合结果之差的平方和。
image.png
红色线框为求和后的最后结果
image.png
网友评论