![](https://img.haomeiwen.com/i1676906/848c579f30194179.png)
本篇内容为原书第二,三章节的笔记。
- The Series Object
- Series Methods
Series可谓是pandas里的一个重要的数据结构,是带标签的一维数组,可存储整数、浮点数、字符串、Python 对象等类型的数据。轴标签统称为索引,主要由两部分组成:
- values:一组数据(ndarray类型)
- index:相关的数据索引标签
Index labels can be of any immutable data type: strings, tuples, datetimes, and more.
![](https://img.haomeiwen.com/i1676906/906494663ed232fe.png)
在Jupyter notebook下,可通过shift+tab来查看函数的定义等信息。
![](https://img.haomeiwen.com/i1676906/9acd1d72b1c523f3.png)
创建Series
pd.Series(
data=None,
index=None,
dtype=None,
name=None,
copy=False,
fastpath=False,
)
上面为Series的参数,在一般情况下我们主要通过data来传递数据进行Series创建。在需要的场合下,各参数也是可以进行配置,如索引值,数据类型等。
![](https://img.haomeiwen.com/i1676906/f02bef50ec8c513d.png)
-
通过list数据进行Series实例
Series by list data
-
指定数据类型dtype
dtype
-
含有缺失值情况(missing values)
nan:not a number
with nan
Pandas automatically converts numeric values from integers to floating-points when it spots a nan value.
- python数据进行Series创建,字典,元组等
![](https://img.haomeiwen.com/i1676906/91a00a2fcb75b265.png)
注:集合(set)是无序状态的数据集,在pandas中我们无法直接进行Series创建,需要将其先转换为其他格式再进行Series创建。
Series属性
- .values
- .index
- .dtype
- .size
- .shape
- .is_unique
- .is_monotonic # 是否是单调递增数据组
Series方法
统计计算方法
- .head()
- .tail()
- .count()
- .sum() # .sum(skipna=False) 计算时不跳过空值
- .product()
- .comsum()
- .pct_change()
pct_change(fill_method='bfill'),fill_method有bfill(backfill)或pad(ffill)值,分别表示空值的填充为向后取值,或是向前取值
![](https://img.haomeiwen.com/i1676906/c79391326643c7fa.png)
![](https://img.haomeiwen.com/i1676906/7c69a4efb46a1378.png)
- .mean()
- .median()
- .std()
- .max()
- .min()
- .describe() # 数据全况,个数,均值方差等
- .sample(n) # 随机返回数据
- .unique() # 去重
- .nunique() # 唯一值个数
算术操作方法
- .add() # +
- .sub() 或 .subtract()
- .mul() 或 multiply()
- .div() 或 divide()
- s1 // 4 或s1.floordiv(4)
- s1 % 3 或 s1.mod(3)
广播机制 Broadcasting
![](https://img.haomeiwen.com/i1676906/2ef1ebc540b7bfe7.png)
![](https://img.haomeiwen.com/i1676906/38148bcb50c4cf7a.png)
Series方法
这小节是原书第三章内容,主要介绍一些series的操作方法,如排序,计数和分组等。
read_csv()取得数据并构建Series数据
![](https://img.haomeiwen.com/i1676906/0193f5ce1e4d5e8a.png)
![](https://img.haomeiwen.com/i1676906/7ddccd352270c8f4.png)
![](https://img.haomeiwen.com/i1676906/e3a82aaa2c92defb.png)
-
排序操作
对值(sort_values)或索引(sort_index)进行排序。
sort_values
![](https://img.haomeiwen.com/i1676906/2f8d0ba66c8fe6bc.png)
-
丢弃空值 dropna()
dropna
-
最大最小值 nlargest()/nsmallest()
nlargest
-
统计个数 value_counts()
value_counts
-
取得Series里的最大最小值
max-min
![](https://img.haomeiwen.com/i1676906/ae8c954eedf2cefc.png)
通过函数对数据进行操作,apply()
![](https://img.haomeiwen.com/i1676906/a82194a724c4b058.png)
![](https://img.haomeiwen.com/i1676906/28a170b84e4f06a3.png)
网友评论