美文网首页
11.随机采样

11.随机采样

作者: B0ZZ | 来源:发表于2019-02-10 11:57 被阅读0次

    0.背景

    • numpy.random.permutation函数可以快速实现对series和dataframe的列的排序工作,同样可以胜任随机采样。本方法方便,但是在大数据背景下并不快;
    • random.sample函数可以快速随机采样,在大数据背景下速度较快;

    1.numpy.random.permutation(代码简单+千万级数据)

    import numpy as np
    import pandas as pd
    
    df = pd.DataFrame(np.arange(20).reshape(5,4))
    sampler = np.random.permutation(len(df))
    #排序
    df1 = df.take(sampler)
    #抽样
    df2 = df.take(sampler[:3])
    

    2.random.sample(千万级数据)

    import random
    df = pd.DataFrame(np.arange(20).reshape(5,4))
    sampler = random.sample(range(0,len(df)),3)
    df1 = df.take(sampler[:3])
    

    相关文章

      网友评论

          本文标题:11.随机采样

          本文链接:https://www.haomeiwen.com/subject/dgmteqtx.html