dataframe中连续数值的离散化

作者: hi小羊 | 来源:发表于2018-07-19 11:59 被阅读0次

dataframe中连续数值的离散化
连续属性离散化实例
AttributeError: 'Series' object
5.4 数据连续属性离散化.cut()、qcut()、pd.v
标准化和离散化总结
直方图均衡化的计算
连续值特征的离散化
R语言之书笔记：初级统计学
连续数据离散化
离散属性连续化

通过等宽分箱得得方法对df连续型数值进行离散化

def binning(x, n=10):
    d1=pd.DataFrame({'x':x, 'bucket':pd.cut(x, n)})
    d2=d1.groupby('bucket', as_index=True)
    d3=pd.DataFrame(d2.x.min(), columns=['min'])
    d3['min']=d2.x.min()
    d3['max']=d2.x.max()
    d3['total']=d2.x.count()
    d3['proba']=d2.x.count()/len(x)
    d4=(d3.sort_values(by='min')).reset_index(drop=True)
    return d4

#replace the values with probability
def replace_proba(value,cut,proba):
    for i in range(len(cut)):
        if value>cut[i]:
            continue
        else:
            return proba[i]
#get the joint probability distribution
def risk_score(row_var):
    s=0
    for p in row_var:
        s+=np.power(np.log(p),2)
    return np.exp(np.power(s/len(row_var), 0.5))

使用：

bin_col=binning(df[col])
df[col]=df[col].apply(replace_proba, args=(bin_col['max'], bin_col['proba'])

dataframe中连续数值的离散化
通过等宽分箱得得方法对df连续型数值进行离散化使用：
连续属性离散化实例
连续属性离散化，就是将数值型变量转化为离散型变量类似于指标转维度的那种感觉前面说过，连续属性离散化有几种方式： ...
AttributeError: 'Series' object
用kmeans方法对连续数据离散化的时候碰到一个错误将输入的excel数据存入DataFrame中，然后想拿出其中...
5.4 数据连续属性离散化.cut()、qcut()、pd.v
连续属性变换成分类属性，即连续属性离散化在数值的取值范围内设定若干个离散划分点，将取值范围划分为一些离散化的区间，...
标准化和离散化总结
离散化总结等距离散化是根据连续型变量的取值，等频离散化根据连续型变量的总个数。
直方图均衡化的计算
计算公式为原图中的像素值，为均衡化后对应的的像素值。数值连续情况下为灰度级，类似于数值离散时的。为不同像素值...
连续值特征的离散化
背景 LR模型中，更偏向于对离散化特征进行训练，对于连续值特征，更多的情况下是将连续值特征离散化，再加入模型进行训...
R语言之书笔记：初级统计学
概念数值型变量数值型变量：是将观测值以数值形式存储起来的变量，分为连续型和离散型两种类型。连续型变量：可以取某个...
连续数据离散化
在工作中经常会有对连续数据进行分级的工作。我们可以构造一个这样的实例：人工分级 Artificial Divis...
离散属性连续化
本来要写神经网络中前向传播和反向传播的一些东西。准备使用西瓜数据集建立一个超级简单的两层MLP进行分析。但是着手动...