1.pandas的数据结构介绍
1.1Series
series类似于一维数组的对象,由一组数据以及与之相关的数据标签即索引组成。
生成seriesseries的字符串:索引在左,值在右,如果不为数据指定索引,则会自动创建一个0—N-1的整数型索引
通过values获取其数组表示形式 通过index获取数组的索引 创建可以对各个数据点进行标记的索引 通过索引方式选取series中的单个值或一组值numpy数组运算都会保留索引和值之间的链接
numpy数组运算可以将series看成是一个定长的有序字典,因为它是索引值到数据值的一个映射
通过字典来创建series 只传入字典,则结果series中的索引就是原字典的键sdata中跟states索引相匹配的3个值会被找出来并放到相应的位置上,但california所对应的sdata找不到,所以其结果就为NaN(not a number)
pandas的isnull和notnull函数可用于检测缺失数据 series会在算术运算中会自动对齐不同索引的数据1.2 DataFrame
dataframe是一个表格型的数据结构,含有一组有序的列,每列可以使不同的值类型。
dataframe既有行索引也有列索引,可以被看做由series组成的字典
dataframe里面的数据是以一个或多个二位块存放的
传入一个由等长列表或numpy数组组成的字典,创建dataframe 如果指定了序列,则dataframe的列就会按照指定顺序进行排列 如果传入的列在数据中找不到,就会产生NA值 通过类似字典标记的方式或属性的方式,可以将dataframe的列获取为一个series 通过索引字段ix获取行 可通过赋值方式修改列 将列表或数组赋值给某个列时,其长度必须跟dataframe的长度相匹配。如果赋值的是一个series,就会精确匹配dataframe的索引,所有空位都会被填上缺失值 为不存在的列赋值会创建出一个新列 del用于删除列 将嵌套字典传给dataframe,外层字典的键作为列,内层键作为行索引 显示指定dataframe的index和columns的name属性 可以输入给dataframe构造器的数据1.3 索引对象
pandas的索引对象负责管理轴标签和其他元数据,index对象不可修改
pandas中主要的index对象 index的方法和属性2.基本功能
2.1重新索引
reindex:创建一个适应新索引的新对象
网友评论