背景需求:将数值分割并排序到容器中,比如将连续变量转换为类别变量或者是转换为指定的分组
函数官网:pandas.cut
主要参数:pandas.cut(*x*, *bins*, *right=True*, *labels=None*, *retbins=False*, *precision=3*, *include_lowest=False*, *duplicates='raise'*, *ordered=True*))
注意:默认区间分割是前开后闭(],即前面是大于,后面是小于等于;如需修改可设置include_lowest变量
用法示例:
# 输出每个分类的个数
file = r"E:\Result.csv"
df = pd.read_csv(file, header=0, encoding='gbk')
intervals = [0, 0.1, 0.4, 0.5, 0.6, 0.9, 1.0]
sequence = pd.cut(df['col'], intervals)
print(sequence.value_counts())
在使用pd.cut之后,多加了一个value_counts统计个数,更多例子参见函数官网pandas.cut 。
网友评论