美文网首页每天AI你三千遍
统计特征IV值算法实现demo

统计特征IV值算法实现demo

作者: AI_Engine | 来源:发表于2018-04-21 23:37 被阅读89次

import numpy as np

from math import log

from math import e

import os,sys

reload(sys)

sys.setdefaultencoding('utf-8')

#获取数据并以列表的形式返回

def achieve_data(path):

    feaValue_list = []

    if os.path.isdir(path):

        file_list = os.listdir(path)

        for f in file_list:

            if f.endswith('.txt'):

                fea_array = np.genfromtxt(path+'\\'+f,dtype= float)

            feaValue_list.extend(fea_array)

    return feaValue_list

#计算每个特征的分组临界值点,这里分为4组。

def cal_stage_vlaue(sample_list):

    all_fea_step = []

    sample_array_len = len(sample_list)

    step_num = sample_array_len/4

    stepValue1 = stepValue2 = stepValue3 = stepValue4 = 0

    fea_num = len(sample_list[0])

    sample_array = np.array(sample_list)

    for i in range(0,fea_num):

        col_arg = np.argsort(sample_array[:,i])

        col_arg_array = sample_array[col_arg]

        stepValue1 = col_arg_array[step_num][i]

        stepValue2 = col_arg_array[2*step_num][i]

        stepValue3 = col_arg_array[3*step_num][i]

        stepValue4 = col_arg_array[-1][i]

        one_fea_step = [0,stepValue1,stepValue2,stepValue3,stepValue4]

        all_fea_step.append(one_fea_step)

    return all_fea_step

#计算每个特征的不同分组情况下,黑白样本分别覆盖的数量

def cal_proportion(stage_array,white_list,black_list):

    fea_num = len(stage_array)

    all_fea_pro_list = []

    for i in range(fea_num):

        white_count = len(white_list)

        white_num_1 = white_num_2 = white_num_3 = white_num_4 = 0

        for j in range(white_count):

            if white_list[j][i] >= stage_array[i][0] and white_list[j][i] < stage_array[i][1]:

                white_num_1 = white_num_1+1

            elif white_list[j][i] >= stage_array[i][1] and white_list[j][i] < stage_array[i][2]:

                white_num_2 = white_num_2+1

            elif white_list[j][i] >= stage_array[i][2] and white_list[j][i] < stage_array[i][3]:

                white_num_3 = white_num_3+1

            elif white_list[j][i] >= stage_array[i][3] and white_list[j][i] <= stage_array[i][4]:

                white_num_4 = white_num_4+1

            else:

                pass

        white_fea_pro_list = [white_num_1,white_num_2,white_num_3,white_num_4]

        black_count = len(black_list)

        black_num_1 = black_num_2 = black_num_3 = black_num_4 = 0

        for k in range(black_count):

            if black_list[k][i] >= stage_array[i][0] and black_list[k][i] < stage_array[i][1]:

                black_num_1 = black_num_1 + 1

            elif black_list[k][i] >= stage_array[i][1] and black_list[k][i] < stage_array[i][2]:

                black_num_2 = black_num_2 + 1

            elif black_list[k][i] >= stage_array[i][2] and black_list[k][i] < stage_array[i][3]:

                black_num_3 = black_num_3 + 1

            elif black_list[k][i] >= stage_array[i][3] and black_list[k][i] < stage_array[i][4]

                black_num_4 = black_num_4 + 1

            else:

                pass

        black_fea_pro_list = [black_num_1, black_num_2, black_num_3, black_num_4]

        one_fea_pro_list = []

        one_fea_pro_list.append(black_fea_pro_list)

        one_fea_pro_list.append(white_fea_pro_list)

        all_fea_pro_list.append(one_fea_pro_list)

    #print all_fea_pro_list

    all_fea_pro_list = fix_pro(all_fea_pro_list)

    return all_fea_pro_list

#这里是人工处理黑白样本在分组中覆盖数量为0的情况。

def fix_pro(pro_list):

    num1 = len(pro_list)

    for i in range(num1):

        num2 = len(pro_list[i])

        for j in range(num2):

            num3 = len(pro_list[i][j])

            for k in range(num3):

                if pro_list[i][j][k] == 0:

                    pro_list[i][j][k] = 1

    return pro_list

#计算每个特征的IV值

def cal_IV(propor_array):

    propor_array_count = len(propor_array)

    IV_list = []

    for i in range(propor_array_count):

        pro_part_array = propor_array[i].T

        print pro_part_array

        black_sum,white_sum = pro_part_array.sum(axis=0)

        print black_sum,white_sum

        DB1 = float(pro_part_array[0][0])/ float(black_sum)

        DB2 = float(pro_part_array[1][0])/ float(black_sum)

        DB3 = float(pro_part_array[2][0])/ float(black_sum)

        DB4 = float(pro_part_array[3][0])/ float(black_sum)

        DG1 = float(pro_part_array[0][1])/ float(white_sum)

        DG2 = float(pro_part_array[1][1])/ float(white_sum)

        DG3 = float(pro_part_array[2][1])/ float(white_sum)

        DG4 = float(pro_part_array[3][1])/ float(white_sum)

        IV1 = (DG1-DB1) * log(float(DG1/DB1),e)

        IV2 = (DG2-DB2) * log(float(DG2/DB2),e)

        IV3 = (DG3-DB3) * log(float(DG3/DB3),e)

        IV4 = (DG4-DB4) * log(float(DG4/DB4),e)

        IV = IV1+IV2+IV3+IV4

        IV_list.append(IV)

    return IV_list

相关文章

  • 统计特征IV值算法实现demo

    import numpy as np from math import log from math import ...

  • python实现OneR算法

    1.算法原理    算法首先遍历每个特征的每一个取值,对于每一个特征值,统计它在各个类别中的出现次数,找到它出现次...

  • 数据挖掘实践任务2

    任务2: 特征工程(2天) 特征衍生特征挑选:分别用IV值和随机森林等进行特征选择……以及你能想到特征工程处理 结...

  • k-近邻算法

    1 k-近邻算法概述 k-近邻算法采用测量不同特征值之间的距离方法进行分类。 KNN是通过测量不同特征值之间的距离...

  • 推荐排序模型ensemble dnn

    关于稀疏特征和稠密特征,一般来说,稀疏就是0/1的值,稠密就是float值;稠密特征一般是统计特征。也有说,稀疏特...

  • 【第四周作业02数字特征值】程序设计入门——C语言(翁恺)

    数字特征值(5分) 题目内容: 对数字求特征值是常用的编码算法,奇偶特征是一种简单的特征值。对于一个整数,从个位开...

  • K-近邻算法学习及实现

    K-近邻算法学习及实现 K-近邻原理 K-近邻算法采用测量不同特征值之见的距离方法进行分类。 将新数据与已知数据集...

  • 27-图像文件读取

    机器学习的算法都是输入特征值和目标值 图像的特征 图像里面用什么表示特征?图像是由像素组成的,所以图像的特征值就是...

  • 人工智能数学知识

    1 线性代数 向量 向量空间; 矩阵 线性变换特征值 特征向量; 奇异值 奇异值分解 2 概率论与统计 随机事件...

  • OC算法实现--Dijkstra算法

    本文使用OC语言实现了Dijkstra算法,并实现了构图界面化,demo下载地址:github 效果图如下: 算法...

网友评论

    本文标题:统计特征IV值算法实现demo

    本文链接:https://www.haomeiwen.com/subject/astqlftx.html