美文网首页
dataframe中连续数值的离散化

dataframe中连续数值的离散化

作者: hi小羊 | 来源:发表于2018-07-19 11:59 被阅读0次

通过等宽分箱得得方法对df连续型数值进行离散化

def binning(x, n=10):
    d1=pd.DataFrame({'x':x, 'bucket':pd.cut(x, n)})
    d2=d1.groupby('bucket', as_index=True)
    d3=pd.DataFrame(d2.x.min(), columns=['min'])
    d3['min']=d2.x.min()
    d3['max']=d2.x.max()
    d3['total']=d2.x.count()
    d3['proba']=d2.x.count()/len(x)
    d4=(d3.sort_values(by='min')).reset_index(drop=True)
    return d4

#replace the values with probability
def replace_proba(value,cut,proba):
    for i in range(len(cut)):
        if value>cut[i]:
            continue
        else:
            return proba[i]
#get the joint probability distribution
def risk_score(row_var):
    s=0
    for p in row_var:
        s+=np.power(np.log(p),2)
    return np.exp(np.power(s/len(row_var), 0.5))

使用:

bin_col=binning(df[col])
df[col]=df[col].apply(replace_proba, args=(bin_col['max'], bin_col['proba'])

相关文章

  • dataframe中连续数值的离散化

    通过等宽分箱得得方法对df连续型数值进行离散化 使用:

  • 连续属性离散化实例

    连续属性离散化,就是将数值型变量转化为离散型变量类似于指标转维度的那种感觉 前面说过,连续属性离散化有几种方式: ...

  • AttributeError: 'Series' object

    用kmeans方法对连续数据离散化的时候碰到一个错误将输入的excel数据存入DataFrame中,然后想拿出其中...

  • 5.4 数据连续属性离散化.cut()、qcut()、pd.v

    连续属性变换成分类属性,即连续属性离散化在数值的取值范围内设定若干个离散划分点,将取值范围划分为一些离散化的区间,...

  • 标准化和离散化总结

    离散化总结 等距离散化是根据连续型变量的取值,等频离散化根据连续型变量的总个数。

  • 直方图均衡化的计算

    计算公式 为原图中的像素值,为均衡化后对应的的像素值。 数值连续情况下 为灰度级,类似于数值离散时的。为不同像素值...

  • 连续值特征的离散化

    背景 LR模型中,更偏向于对离散化特征进行训练,对于连续值特征,更多的情况下是将连续值特征离散化,再加入模型进行训...

  • R语言之书笔记:初级统计学

    概念 数值型变量数值型变量:是将观测值以数值形式存储起来的变量,分为连续型和离散型两种类型。连续型变量:可以取某个...

  • 连续数据离散化

    在工作中经常会有对连续数据进行分级的工作。我们可以构造一个这样的实例: 人工分级 Artificial Divis...

  • 离散属性连续化

    本来要写神经网络中前向传播和反向传播的一些东西。准备使用西瓜数据集建立一个超级简单的两层MLP进行分析。但是着手动...

网友评论

      本文标题:dataframe中连续数值的离散化

      本文链接:https://www.haomeiwen.com/subject/kgttmftx.html