0.背景
- numpy.random.permutation函数可以快速实现对series和dataframe的列的排序工作,同样可以胜任随机采样。本方法方便,但是在大数据背景下并不快;
- random.sample函数可以快速随机采样,在大数据背景下速度较快;
1.numpy.random.permutation(代码简单+千万级数据)
import numpy as np
import pandas as pd
df = pd.DataFrame(np.arange(20).reshape(5,4))
sampler = np.random.permutation(len(df))
#排序
df1 = df.take(sampler)
#抽样
df2 = df.take(sampler[:3])
2.random.sample(千万级数据)
import random
df = pd.DataFrame(np.arange(20).reshape(5,4))
sampler = random.sample(range(0,len(df)),3)
df1 = df.take(sampler[:3])
网友评论