Pandas:打乱数据并切分

作者: ACphart | 来源:发表于2018-08-21 20:54 被阅读132次

描述

  • 在机器学习中,拿到一堆训练数据一般会需要将数据切分成训练集和测试集,或者切分成训练集、交叉验证集和测试集,为了避免切分之后的数据集在特征分布上出现偏倚,我们需要先将数据打乱,使数据随机排序,然后在进行切分。
  • 需要用的方法如下:
    注:df代表一个pd.DataFrame
  1. df = df.sample(frac=1.0): 按100%的比例抽样即达到打乱数据的效果
  2. df = df.reset_index():打乱数据之后index也是乱的,如果你的index没有特征意义的话,直接重置就可以了,否则就在打乱之前把index加进新的一列,再生成无意义的index
  3. train = df.loc[0:a]: 进行切分操作,切分比例看情况定
  4. cv = df.loc[a+1:b]:
  5. test = df.loc[b+1:-1]:

相关文章

  • Pandas:打乱数据并切分

    描述 在机器学习中,拿到一堆训练数据一般会需要将数据切分成训练集和测试集,或者切分成训练集、交叉验证集和测试集,为...

  • 随机打乱Pandas Dataframe数据

    在深度学习应用中,通常用Pandas Dataframe数据来维护一张图片-标签映射表,如下所示: id cla...

  • 书籍:思考pandas Thinking in Pandas.p

    思考pandas Thinking in Pandas.pdf 理解并实现pandas中的大数据分析方案,强调性能...

  • data cleaning

    利用pandas 库进行数据清洗——实战练习 这周的计划是用之前看过的pandas模块对具体数据做数据清洗并做数据...

  • pandas常用函数总结

    pandas常用函数 导入并读取数据 常用的pandas数据读取函数 注意:csv与tsv格式文件都是使用pd.r...

  • 2019-02-23

    Pandas 1 熟悉并掌握Pandas中DataFrame和Series两大数据结构 2掌握数据索引的三种方式 ...

  • Python-Pandas 如何shuffle(打乱)数据?

    参考:https://blog.csdn.net/qq_22238533/article/details/7091...

  • pandas常用操作

    pandas读取数据: pandas查看数据: pandas删除行、列: pandas排序: pandas合并列表...

  • Pandas(数据结构:Series)

    pandas是专门为处理表格和混杂数据设计的,而NumPy更适合处理统一的数值数组数据。 导入Pandas的包并取...

  • Mycat 分片规则

    概述 在数据切分处理中,特别是水平切分中,中间件最终要的两个处理过程就是数据的切分、数据的聚合。选择合适的切分规则...

网友评论

    本文标题:Pandas:打乱数据并切分

    本文链接:https://www.haomeiwen.com/subject/fohsiftx.html