Pandas 数据结构方法

作者: 爱修仙的道友 | 来源:发表于2019-04-20 02:13 被阅读0次

2021-12-31 Python-23
pandas
pandas入门 02 数据结构
Pandas-2019-03-14
pandas 数据结构简介
pandas入门
使用python进行数据分析<五>(pandas入门
python数据分析包03|Pandas-01之DataFram
刺猬教你量化投资(五):Pandas入门
Pandas基本功能

Series

series是一个像数组一样的一维序列，并伴有一个数组表示label，叫做index。创建一个series的方法也很简单：

import pandas as pd

from pandas import Series, DataFrame

obj = pd.Series([4, 7, -5, 3])

obj

--------------------------------------------------------------
0    4
1    7
2   -5
3    3
dtype: int64

可以看到，左边表示index，右边表示对应的value。可以通过value和index属性查看：

obj.values

------------------------------
array([ 4,  7, -5,  3])

obj.index # like range(4)
--------------------------------
RangeIndex(start=0, stop=4, step=1)

当然我们也可以自己指定index的label：

obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

obj2

----------------------------------
d    4
b    7
a   -5
c    3
dtype: int64

obj2.index

------------------------------------

Index(['d', 'b', 'a', 'c'], dtype='object')

可以用index的label来选择：

obj2['a']

--------------------------------------
-5

obj2['d'] = 6
obj2[['c', 'a', 'd']]
---------------------------------------

c    3
a   -5
d    6
dtype: int64

这里['c', 'a', 'd']其实被当做了索引，尽管这个索引是用string构成的。
使用numpy函数或类似的操作，会保留index-value的关系：

obj2[obj2 > 0]

---------------------------------------------

d    6
b    7
c    3
dtype: int64

obj2 * 2
-----------------------------------------------
d    12
b    14
a   -10
c     6
dtype: int64

import numpy as np
np.exp(obj2)
-----------------------------------------------
d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

另一种看待series的方法，它是一个长度固定，有顺序的dict，从index映射到value。在很多场景下，可以当做dict来用：

'b' in obj2
--------------------------------------------------
True

'e' in obj2
---------------------------------------------------
False

还可以直接用现有的dict来创建series：

sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon':16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3
---------------------------------------------------
Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

series中的index其实就是dict中排好序的keys。我们也可以传入一个自己想要的顺序：

states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

-------------------------------------------------------
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

顺序是按states里来的，但因为没有找到california,所以是NaN。NaN表示缺失数据，用之后我们提到的话就用missing或NA来指代。
pandas中的isnull和notnull函数可以用来检测缺失据：

pd.isnull(obj4)

------------------------------------------------------

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

pd.notnull(obj4)

--------------------------------------------------------
California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

series也有对应的方法：

obj4.isnull()
--------------------------------------------------------
California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

关于缺失数据，后面还会讲得更详细一些。

series中一个有用的特色自动按index label来排序（Data alignment features）：

obj3 + obj4
----------------------------------------------------------
California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

这个Data alignment features（数据对齐特色）和数据库中的join相似。
serice自身和它的index都有一个叫name的属性，这个能和其他pandas的函数进行整合：

obj4.name = 'population'
obj4.index.name = 'state'
obj
----------------------------------------------------------

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

series的index能被直接更改：

obj

------------------------------------------------------------
0    4
1    7
2   -5
3    3
dtype: int64

obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj
------------------------------------------------------------

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

DataFrame

DataFrame表示一个长方形表格，并包含排好序的列，每一列都可以是不同的数值类型（数字，字符串，布尔值）。DataFrame有行索引和列索引（row index, column index）；可以看做是分享所有索引的由series组成的字典。数据是保存在一维以上的区块里的。
（其实我是把dataframe当做excel里的那种表格来用的，这样感觉更直观一些）
构建一个dataframe的方法，用一个dcit，dict里的值是list：

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 
        'year': [2000, 2001, 2002, 2001, 2002, 2003], 
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)

frame
-----------------------------------------------------
    pop state   year
0   1.5 Ohio    2000
1   1.7 Ohio    2001
2   3.6 Ohio    2002
3   2.4 Nevada  2001
4   2.9 Nevada  2002
5   3.2 Nevada  2003

dataframe也会像series一样，自动给数据赋index, 而列则会按顺序排好。

对于一个较大的DataFrame，用head方法会返回前5行（注：这个函数在数据分析中经常使用，用来查看表格里有什么东西）：

frame.head()

如果指定一列的话，会自动按列排序：

pd.DataFrame(data, columns=['year', 'state', 'pop'])
---------------------------------------------
    year    state   pop
0   2000    Ohio    1.5
1   2001    Ohio    1.7
2   2002    Ohio    3.6
3   2001    Nevada  2.4
4   2002    Nevada  2.9
5   2003    Nevada  3.2

如果你导入一个不存在的列名，那么会显示为缺失数据：

frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'], 
                      index=['one', 'two', 'three', 'four', 'five', 'six'])

frame2

-----------------------------------------------
            year    state   pop debt
one         2000    Ohio    1.5 NaN
two         2001    Ohio    1.7 NaN
three       2002    Ohio    3.6 NaN
four        2001    Nevada  2.4 NaN
five        2002    Nevada  2.9 NaN
six         2003    Nevada  3.2 NaN

frame2.columns

--------------------------------------------------
Index(['year', 'state', 'pop', 'debt'], dtype='object')

从DataFrame里提取一列的话会返回series格式，可以以属性或是dict一样的形式来提取：

frame2['state']
-------------------------------------------------
one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

frame2.year
---------------------------------------
one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

注意：frame2[column]能应对任何列名，但frame2.column的情况下，列名必须是有效的python变量名才行。
返回的series有DataFrame种同样的index，而且name属性也是对应的。
对于行，要用在loc属性里用位置或名字：

frame2.loc['three']

------------------------------------------------
year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

列值也能通过赋值改变。比如给debt赋值：

frame2['debt'] = 16.5
frame2

---------------------------------------------------
        year    state   pop debt
one     2000    Ohio    1.5 16.5
two     2001    Ohio    1.7 16.5
three   2002    Ohio    3.6 16.5
four    2001    Nevada  2.4 16.5
five    2002    Nevada  2.9 16.5
six     2003    Nevada  3.2 16.5

frame2['debt'] = np.arange(6.)
frame2
----------------------------------------------------
        year    state   pop debt
one     2000    Ohio    1.5 0.0
two     2001    Ohio    1.7 1.0
three   2002    Ohio    3.6 2.0
four    2001    Nevada  2.4 3.0
five    2002    Nevada  2.9 4.0
six     2003    Nevada  3.2 5.0

如果把list或array赋给column的话，长度必须符合DataFrame的长度。如果把一二series赋给DataFrame，会按DataFrame的index来赋值，不够的地方用缺失数据来表示：

val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

----------------------------------------------------
        year    state   pop debt
one     2000    Ohio    1.5 NaN
two     2001    Ohio    1.7 -1.2
three   2002    Ohio    3.6 NaN
four    2001    Nevada  2.4 -1.5
five    2002    Nevada  2.9 -1.7
six     2003    Nevada  3.2 NaN

如果列不存在，赋值会创建一个新列。而del也能像删除字典关键字一样，删除列：

frame2['eastern'] = frame2.state == 'Ohio'
frame2
-----------------------------------------------------
         year   state   pop debt    eastern
one      2000   Ohio    1.5 NaN     True
two      2001   Ohio    1.7 -1.2    True
three     2002  Ohio    3.6 NaN     True
four     2001   Nevada  2.4 -1.5    False
five     2002   Nevada  2.9 -1.7    False
six      2003   Nevada  3.2 NaN     False

然后用del删除这一列：

del frame2['eastern']
frame2.columns
-------------------------------------------------------------
Index(['year', 'state', 'pop', 'debt'], dtype='object')

注意：columns返回的是一个view，而不是新建了一个copy。因此，任何对series的改变，会反映在DataFrame上。除非我们用copy方法来新建一个。

另一种常见的格式是dict中的dict：

pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

把上面这种嵌套dcit传给DataFrame，pandas会把外层dcit的key当做列，内层key当做行索引：

frame3 = pd.DataFrame(pop)
frame3
------------------------------------------------------
       Nevada       Ohio
2000    NaN         1.5
2001    2.4         1.7
2002    2.9         3.6

另外DataFrame也可以向numpy数组一样做转置：

frame3.T
-----------------------------------------------------------
        2000    2001    2002
Nevada  NaN      2.4    2.9
Ohio    1.5      1.7    3.6

指定index：

pd.DataFrame(pop, index=[2001, 2002, 2003])

-----------------------------------------------------

Nevada  Ohio
2001    2.4 1.7
2002    2.9 3.6
2003    NaN NaN

series组成的dict：

pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]}
pd.DataFrame(pdata)
--------------------------------------------
      Nevada    Ohio
2000    NaN     1.5
2001    2.4     1.7

其他一些可以传递给DataFrame的构造器：
如果DataFrame的index和column有自己的name属性，也会被显示：

frame3.index.name = 'year'; frame3.columns.name = 'state'
frame3
------------------------------------------------

state   Nevada  Ohio
year        
2000    NaN     1.5
2001    2.4     1.7
2002    2.9     3.6

values属性会返回二维数组：

frame3.values
---------------------------------------------------
array([[ nan,  1.5],
       [ 2.4,  1.7],
       [ 2.9,  3.6]])

如果column有不同的类型，dtype会适应所有的列：

frame2.values
-----------------------------------------------------------
array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

Index Objects (索引对象)
pandas的Index Objects (索引对象)负责保存axis labels和其他一些数据（比如axis name或names）。一个数组或其他一个序列标签，只要被用来做构建series或DataFrame，就会被自动转变为index：

obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index

-----------------------------------
Index(['a', 'b', 'c'], dtype='object')

index[1:]
-------------------------------------
Index(['b', 'c'], dtype='object')

index object是不可更改的,正因为不可修改，所以data structure中分享index object是很安全的：

labels = pd.Index(np.arange(3))
labels
-----------------------------------------
Int64Index([0, 1, 2], dtype='int64')

obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2
-------------------------------------------
0    1.5
1   -2.5
2    0.0
dtype: float64

obj2.index is labels
True

index除了想数组，还能像大小一定的set：

frame3
------------------------------------------

state   Nevada  Ohio
year        
2000    NaN 1.5
2001    2.4 1.7
2002    2.9 3.6

frame3.columns
------------------------------------------------
Index(['Nevada', 'Ohio'], dtype='object', name='state')

'Ohio' in frame3.columns
-------------------------------------------------
True

2003 in frame3.columns
--------------------------------------------------
False

与python里的set不同，pandas的index可以有重复的labels：

dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])
dup_labels
----------------------------------------------------
Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

在这种重复的标签中选择的话，会选中所有相同的标签。

2021-12-31 Python-23
pandas pandas数据结构 pandas 有 2 个常用的数据结构：Series 和 Dataframe一...
pandas
pandas 入门 pandas 的数据结构介绍 pandas 有两个重要的数据结构：Series和DataFra...
pandas入门 02 数据结构
0 pandas数据结构简介 pandas主要处理下面三种数据结构 Series DataFrame Panel ...
Pandas-2019-03-14
Pandas Pandas 介绍 Pandas主要处理的数据结构 ·系列（Series）·数据帧（DataFram...
pandas 数据结构简介
pandas 数据结构及构建 pandas 主要有两种数据结构： Series 和 DataFrame。Serie...
pandas入门
引入pandas和常用的数据结构Series，DataFrame 一、pandas的数据结构的介绍 1.Serie...
使用python进行数据分析<五>(pandas入门
pandas基于Numpy构建 pandas 的数据结构介绍 Series DataFrame
python数据分析包03|Pandas-01之DataFram
本文详细介绍Pandas数据结构DataFrame和Series的常用方法。首发于本人公众号：pythonic生物...
刺猬教你量化投资(五):Pandas入门
Pandas基础概念数据结构 Pandas中的数据结构有四种，分别是Series、time series、dat...
Pandas基本功能
1.Pandas基本数据结构 Pandas两种常用的数据结构:Series 和 DataFrame。其中Serie...