最后一次更新日期: 2019/3/17
pandas
是基于numpy
的数据分析库,提供一些更易用的数据模型和大量高效的统计方法。
使用前先导入模块:
import pandas as pd
按需导入以下模块:
import numpy as np
import matplotlib.pyplot as plt
1. 随机排序
In [24]: df=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})
In [25]: df.iloc[np.random.permutation(df.shape[0])]
Out[25]:
a b
1 2 5
0 1 4
2 3 6
In [27]: df.sample(frac=1.)
Out[27]:
a b
0 1 4
2 3 6
1 2 5
随机排序,用于打乱数据集。一种方法是通过numpy生成乱序索引,然后应用在pandas的iloc
索引方法上;另一种方法是使用pandas的抽样方法sample
,设置抽样比例frac
参数为1.,采用默认的不放回抽样的方式,也可以达到同样的效果。
2. 抽样
In [34]: df.sample(n=2)
Out[34]:
a b
1 2 5
2 3 6
In [36]: df.sample(frac=0.8,replace=True)
Out[36]:
a b
1 2 5
1 2 5
sample
方法用于抽样,第一个参数n
设置抽样数量,第二个参数frac
设置抽样比例,第三个参数replace
设置是否放回,默认False
,第四个参数weight
可设置样本权重,第五个参数random_state
设置随机数种子。
网友评论