连续属性变换成分类属性,即连续属性离散化
在数值的取值范围内设定若干个离散划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表每个子区间中的数据值
等宽法 / 等频法
1--# 等宽法 → 将数据均匀划分成n等份,每份的间距相等
# pd.cut(ages,bins)
# cut_1.codes:获得分组的codes码
![](https://img.haomeiwen.com/i5798142/37e563d773714e39.png)
1--# 等宽法
![](https://img.haomeiwen.com/i5798142/44adec65c50503c5.png)
3--# 等频法 → 以相同数量的记录放进每个区间
# qcut方法
qcut(data,n)
![](https://img.haomeiwen.com/i5798142/43a40749a781192e.png)
连续属性变换成分类属性,即连续属性离散化
在数值的取值范围内设定若干个离散划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表每个子区间中的数据值
等宽法 / 等频法
本文标题:5.4 数据连续属性离散化.cut()、qcut()、pd.v
本文链接:https://www.haomeiwen.com/subject/ngfxjftx.html
网友评论