Pandas是Python的第三方库,提供高性能易用的数据类型和分析工具。它是基于Numpy实现,常与Numpy和Matplotlib一同使用。
Pandas有两种数据类型:Series和DataFrame。
Series=索引+一维数据
DataFrame=行列索引+二维数据
一.Series类型
Series类型由一组数据和与之相关的数据索引组成,如果没有自定义索引的话会自动索引。
索引作为第二个参数,“index=”是可以省略的
e.g. image.png
自动索引和自定义索引并存,但是不能混用。
Series类型由如下几种创建方式:
1.Python列表,index与列表元素个数一致,例如上述的例子
2.标量值,index表达Series类型的尺寸,所以index是不能省略的
e.g. image.png
3.Python字典,键值对中的“键”是索引,index从字典中进行操作
4.ndarray,索引和数据都可以通过ndarray类型创建
5.其他函数,range()函数等
Series类型的操作与ndarray类型类似:
1.索引方法相同,采用[]
2.Numpy中运算和操作都可用于Series类型
3.可以通过自定义索引的列表进行切片
4.可以通过自动索引进行切片,如果存在自定义索引,则一同被切片
Series类型在运算中会自动对齐不同索引的数据,补齐后运算,补齐时缺项填充NaN(空值)
Series对象可以随时修改并且即刻生效。
二.DataFrame类型
DataFrame类型由共有相同索引的一组列组成,是一个表格型的数据类型,既有行索引,也有列索引,常用于表达二位数据,但也可以表达多维数据。
DataFrame类型可以由如下类型创建:
1.二维ndarray对象
2.由一维ndarray,列表,字典,元组或Series构成的字典
3.Series类型
4.其他的DataFrame类型
DataFrame基本操作类似Series,依据行列索引
.reindex()能够改变或重排Series和DataFrame索引
.drop()能够删除Series和DataFrame指定行或列索引
算数运算依据行列索引,补齐后运算,运算默认产生浮点数,补齐时缺项填充NaN(空值),采用+-*/符号进行的二元运算产生新的对象
比较运算只能比较相同索引的元素,不进行补齐,采用>,<,>=,<=,==,!=等符号进行的二元运算产生布尔对象
网友评论