美文网首页
PYTHON-分箱

PYTHON-分箱

作者: Brian_mingzhi | 来源:发表于2020-02-29 16:50 被阅读0次

分箱可以将连续变量离散化,减小异常值对模型的影响

数据准备

Age = [0,10,20,25,31,35,40,62,90]

pd.qcut() 使每一份的元素个数相同

#将Age分为三个箱子,每个箱子有3个元素
pd.qcut(data['Age'],3,labels=['Teen',‘Middle-age’,'Elder'])

<<[Teen, Teen, Teen, Middle-age, Middle-age, Middle-age, Elder, Elder, Elder]

pd.cut 使每一份的宽度相同

#将Age分为三个箱子,箱子范围分别是0-30,30-60,60-90
pd.cut(Age,3,labels=['Teen',‘Middle-age’,'Elder'])

<<<[Teen, Teen, Teen, Teen, Middle-age, Middle-age, Middle-age, Elder, Elder]

给Age指定区间和标签

pd.cut(ages, [0,5,20,30,50,100], labels=[u"婴儿",u"青年",u"中年",u"壮年",u"老年"])

相关文章

  • PYTHON-分箱

    分箱可以将连续变量离散化,减小异常值对模型的影响 数据准备 pd.qcut() 使每一份的元素个数相同 <<[Te...

  • 数据预处理之分箱操作

    分箱离散化 一种无监督离散化方法 分为两类,1 等距离分箱 2 等频度分箱 等距离分箱即等宽度分箱,设有K个空间,...

  • 机器学习第二课_数据预处理

    数值型特征分箱(数据离散化) 2.1 无监督分箱法 等距分箱 import pandas as pddf = pd...

  • 快速分箱方法

    python 分箱的一种方法 2018.08.02 R语言中有smbining可以进行最优分箱,python中分箱...

  • 等宽分箱与等深分箱

    数据处理中的等宽分箱与等深分箱 等宽分箱每组数据的上边界与下边界差值一样 等深分箱每组数据中包含的条目数近乎一样

  • 风控建模之woe分箱

    一、自动分箱-粗分箱方法介绍 约定初始化分箱的个数为10。定义:,代表箱子。 1.1 iv 算法-1.初始化10箱...

  • metawrap

    Microbiome:宏基因组分箱流程MetaWRAP简介 MetaWRAP分箱流程实战和结果解读

  • 评分卡模型

    逻辑回归 评分卡模型https://zhuanlan.zhihu.com/p/36539125总结: 数据分箱分箱...

  • 数据的分箱,pd.cut和pd.qcut

    对于数据分箱,常用到的一个函数叫做pd.cut(),这个函数可以通过指定分箱个数或者每个箱体的分界值对数据进行分箱...

  • SQL :使用sql直接分箱

    记录用: 一.等距分箱/等宽分箱 1.概念:将变量的取值范围分为k个等宽的区间,每个区间当作一个分箱。 2.方法 ...

网友评论

      本文标题:PYTHON-分箱

      本文链接:https://www.haomeiwen.com/subject/ykxwchtx.html