Pandas 01 数据结构

作者: 生信师姐 | 来源:发表于2020-05-23 00:43 被阅读0次

2021-12-31 Python-23
pandas
pandas入门 02 数据结构
Pandas-2019-03-14
pandas 数据结构简介
pandas入门
使用python进行数据分析<五>(pandas入门
刺猬教你量化投资(五):Pandas入门
Pandas基本功能
Pandas 01 数据结构

一、数据结构

Pandas的三种数据结构：

系列(Series)
数据帧(DataFrame)
面板(Panel)

这些数据结构，构建在Numpy数组之上，这意味着它们很快。

维数和描述

考虑这些数据结构的最好方法是，较高维数据结构是其较低维数据结构的容器。例如，DataFrame是Series的容器，Panel是DataFrame的容器。

数据结构	维数	描述
系列	1	`1`D标记均匀数组，大小不变。
数据帧	2	一般`2`D标记，大小可变的表结构与潜在的异质类型的列。
面板	3	一般`3`D标记，大小可变数组。

构建和处理两个或更多个维数组是一项繁琐的任务，用户在编写函数时要考虑数据集的方向。但是使用Pandas数据结构，减少了用户的思考。例如，使用表格数据(DataFrame)，在语义上更有用于考虑索引(行)和列，而不是轴0和轴1。

可变性
所有Pandas数据结构是值可变的(可以更改)，除了系列都是大小可变的。系列是大小不变的。

注 - DataFrame被广泛使用，是最重要的数据结构之一。面板使用少得多。

1、系列

系列是具有均匀数据的一维数组结构。例如，以下系列是整数：10,23,56，...的集合。

关键点

均匀数据
尺寸大小不变
数据的值可变

2、数据帧

数据帧(DataFrame)是一个具有异构数据的二维数组。例如，

姓名	年龄	性别	等级
Maxsu	25	男	4.45
Katie	34	女	2.78
Vina	46	女	3.9
Lia	女	x女	4.6

上表数据以行和列表示。每列表示一个属性，每行代表一个人。

列的数据类型

上面数据帧中四列的数据类型如下：

列	类型
姓名	字符串
年龄	整数
性别	字符串
等级	浮点型

关键点

异构数据
大小可变
数据可变

3、面板

面板是具有异构数据的三维数据结构。在图形表示中很难表示面板。但是一个面板可以说明为DataFrame的容器。

关键点

异构数据
大小可变
数据可变

二、Series 系列

系列(Series)是能够保存任何类型的数据(整数，字符串，浮点数，Python对象等)的一维标记数组。轴标签统称为索引。

pandas.Series

Pandas系列可以使用以下构造函数创建

pandas.Series( data, index, dtype, copy)

参数	描述
`data`	数据采取各种形式，如：`ndarray`，`list`，`constants`
`index`	索引值必须是唯一的和散列的，与数据的长度相同。默认`np.arange(n)`如果没有索引被传递。
`dtype`	`dtype`用于数据类型。如果没有，将推断数据类型
`copy`	复制数据，默认为`false`。

可以使用各种输入创建一个系列，如：

数组
字典
标量值或常数

（1）创建一个空的系列

创建一个基本系列，是一个空系列。

import pandas as pd

s = pd.Series()
print(s)

'''
Series([], dtype: float64)
'''

（2）从ndarray创建一个系列

如果数据是ndarray，则传递的索引必须具有相同的长度。如果没有传递索引值，那么默认的索引将是范围(n)，其中n是数组长度，即[0,1,2,3…. range(len(array))-1] - 1]。

示例1：没有传递任何索引，因此默认情况下，它分配了从0到len(data)-1的索引，即：0到3。

import pandas as pd
import numpy as np

data = np.array(['a','b','c','d'])
s = pd.Series(data)
print(s)

'''
0   a
1   b
2   c
3   d
dtype: object
'''

示例2：传递了索引值。现在可以在输出中看到自定义的索引值。

import pandas as pd
import numpy as np

data = np.array(['a','b','c','d'])
s = pd.Series(data,index=[100,101,102,103])
print(s)

'''
100  a
101  b
102  c
103  d
dtype: object
'''

（3）从字典创建一个系列

字典(dict)可以作为输入传递，如果没有指定索引，则按排序顺序取得字典键以构造索引。如果传递了索引，索引中与标签对应的数据中的值将被拉出。

示例1

import pandas as pd

data = {'a' : 0., 'b' : 1., 'c' : 2.}
s = pd.Series(data)
print(s)

'''
a 0.0
b 1.0
c 2.0
dtype: float64
'''

注意 - 字典键用于构建索引。

示例2

import pandas as pd

data = {'a' : 0., 'b' : 1., 'c' : 2.}
s = pd.Series(data,index=['b','c','d','a'])
print(s)

'''
b 1.0
c 2.0
d NaN
a 0.0
dtype: float64
'''

注意观察 - 索引顺序保持不变，缺少的元素使用NaN(不是数字)填充。

（4）从标量创建一个系列

如果数据是标量值，则必须提供索引。将重复该值以匹配索引的长度。

import pandas as pd

s = pd.Series(5, index=[0, 1, 2, 3])
print(s)

'''
0  5
1  5
2  5
3  5
dtype: int64
'''

（5）从具有位置的系列中访问数据

系列中的数据可以使用类似于访问ndarray中的数据来访问。

示例-1：检索第一个元素。比如已经知道数组从零开始计数，第一个元素存储在零位置等等。

import pandas as pd

s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
print(s[0])

'''
1
'''

示例-2
检索系列中的前三个元素。如果a:被插入到其前面，则将从该索引向前的所有项目被提取。如果使用两个参数(使用它们之间)，两个索引之间的项目(不包括停止索引)。

import pandas as pd

s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])

#retrieve the first three element
print s[:3]

'''
a  1
b  2
c  3
dtype: int64
'''

示例-3：检索最后三个元素

import pandas as pd

s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])

#retrieve the last three element
print s[-3:]

'''
c  3
d  4
e  5
dtype: int64
'''

（6）使用标签检索数据(索引)

一个系列就像一个固定大小的字典，可以通过索引标签获取和设置值。

示例1：使用索引标签值检索单个元素。

import pandas as pd

s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])

#retrieve a single element
print s['a']

'''
1
'''

示例2：使用索引标签值列表检索多个元素。

import pandas as pd

s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])

#retrieve multiple elements
print s[['a','c','d']]

'''
a  1
c  3
d  4
dtype: int64
'''

示例3：如果不包含标签，则会出现异常。

import pandas as pd

s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])

#retrieve multiple elements
print s['f']

'''
…
KeyError: 'f'
'''

三、DataFrame 数据帧

数据帧(DataFrame)是二维数据结构，即数据以行和列的表格方式排列。

数据帧(DataFrame)的功能特点：

潜在的列是不同的类型
大小可变
标记轴(行和列)
可以对行和列执行算术运算

结构体

假设要创建一个包含学生数据的数据帧。参考以下图示 -

可以将上图表视为SQL表或电子表格数据表示。

pandas.DataFrame

pandas中的DataFrame可以使用以下构造函数创建 -

pandas.DataFrame( data, index, columns, dtype, copy)

参数	描述
`data`	数据采取各种形式，如:`ndarray`，`series`，`map`，`lists`，`dict`，`constant`和另一个`DataFrame`。
`index`	对于行标签，要用于结果帧的索引是可选缺省值`np.arrange(n)`，如果没有传递索引值。
`columns`	对于列标签，可选的默认语法是 - `np.arange(n)`。这只有在没有索引传递的情况下才是这样。
`dtype`	每列的数据类型。
`copy`	如果默认值为`False`，则此命令(或任何它)用于复制数据。

1 创建DataFrame

Pandas数据帧(DataFrame)可以使用各种输入创建，如 -

列表
字典
系列
Numpy ndarrays
另一个数据帧(DataFrame)

在本章的后续章节中，我们将看到如何使用这些输入创建数据帧(DataFrame)。

1.1 创建一个空的DataFrame

创建基本数据帧是空数据帧。

import pandas as pd

df = pd.DataFrame()
print(df)

'''
Empty DataFrame
Columns: []
Index: []
'''

1.2 从列表创建DataFrame

可以使用单个列表或列表列表创建数据帧(DataFrame)。

实例-1

import pandas as pd

data = [1,2,3,4,5]
df = pd.DataFrame(data)
print(df)

'''
     0
0    1
1    2
2    3
3    4
4    5
'''

实例-2

import pandas as pd

data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'])
print(df)

'''
      Name      Age
0     Alex      10
1     Bob       12
2     Clarke    13
'''

实例-3

import pandas as pd

data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'],dtype=float)
print(df)

'''
      Name     Age
0     Alex     10.0
1     Bob      12.0
2     Clarke   13.0
'''

注意 - 可以观察到，dtype参数将Age列的类型更改为浮点。

1.3 从ndarrays/Lists的字典来创建DataFrame

所有的ndarrays必须具有相同的长度。如果传递了索引(index)，则索引的长度应等于数组的长度。

如果没有传递索引，则默认情况下，索引将为range(n)，其中n为数组长度。

实例-1

import pandas as pd

data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)
print(df)

'''
      Age      Name
0     28        Tom
1     34       Jack
2     29      Steve
3     42      Ricky
'''

注 - 观察值0,1,2,3。它们是分配给每个使用函数range(n)的默认索引。

示例-2
使用数组创建一个索引的数据帧(DataFrame)。

import pandas as pd

data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
print(df)

'''
         Age    Name
rank1    28      Tom
rank2    34     Jack
rank3    29    Steve
rank4    42    Ricky
'''

注意 - index参数为每行分配一个索引。

1.4 从字典列表创建数据帧DataFrame

字典列表可作为输入数据，用来创建数据帧(DataFrame)，字典键默认为列名。

实例-1

以下示例显示如何通过传递字典列表来创建数据帧(DataFrame)。

import pandas as pd

data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
print(df)

'''
    a    b      c
0   1   2     NaN
1   5   10   20.0
'''

注意 - 观察到，NaN(不是数字)被附加在缺失的区域。

示例-2

以下示例显示如何通过传递字典列表和行索引来创建数据帧(DataFrame)。

import pandas as pd

data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'])
print(df)

'''
        a   b       c
first   1   2     NaN
second  5   10   20.0
'''

实例-3

以下示例显示如何使用字典，行索引和列索引列表创建数据帧(DataFrame)。

import pandas as pd

data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]

#With two column indices, values same as dictionary keys
df1 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b'])

#With two column indices with one index with other name
df2 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b1'])
print(df1)
print('\n')

print(df2)

'''
         a  b
first    1  2
second   5  10

         a  b1
first    1  NaN
second   5  NaN
'''

注意 - 观察，df2使用字典键以外的列索引创建DataFrame; 因此，附加了NaN到位置上。而df1是使用列索引创建的，与字典键相同，所以也附加了NaN。

1.5 从系列的字典来创建DataFrame

字典的系列可以传递以形成一个DataFrame。所得到的索引是所有系列索引的并集。

示例

import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df)

'''
      one    two
a     1.0    1
b     2.0    2
c     3.0    3
d     NaN    4
'''

注意 - 对于第一个系列，观察到没有传递标签'd'，但在结果中，对于d标签，附加了NaN。

2 列选择，添加和删除。

列选择

通过列名，来选择列

import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df ['one'])

'''
a     1.0
b     2.0
c     3.0
d     NaN
Name: one, dtype: float64
'''

列添加

像字典赋值一样直接添加。

import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)

# Adding a new column to an existing DataFrame object with column label by passing new series

print ("Adding a new column by passing as Series:")
df['three']=pd.Series([10,20,30],index=['a','b','c'])
print(df)
print('\n')

print ("Adding a new column using the existing columns in DataFrame:")
df['four']=df['one']+df['three']
print(df)

'''
Adding a new column by passing as Series:
     one   two   three
a    1.0    1    10.0
b    2.0    2    20.0
c    3.0    3    30.0
d    NaN    4    NaN

Adding a new column using the existing columns in DataFrame:
      one   two   three    four
a     1.0    1    10.0     11.0
b     2.0    2    20.0     22.0
c     3.0    3    30.0     33.0
d     NaN    4     NaN     NaN
'''

列删除

列可以删除或弹出;

import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']),
     'three' : pd.Series([10,20,30], index=['a','b','c'])}

df = pd.DataFrame(d)
print ("Our dataframe is:")
print(df)
print('\n')

# using del function
print ("Deleting the first column using DEL function:")
del df['one']
print(df)
print('\n')

# using pop function
print ("Deleting column using POP function:")
df.pop('two')
print(df)

'''
Our dataframe is:
      one   three  two
a     1.0    10.0   1
b     2.0    20.0   2
c     3.0    30.0   3
d     NaN     NaN   4

Deleting the first column using DEL function:
      three    two
a     10.0     1
b     20.0     2
c     30.0     3
d     NaN      4

Deleting column using POP function:
   three
a  10.0
b  20.0
c  30.0
d  NaN
'''

3 行选择，添加和删除

行选择

标签选择

可以通过将行标签传递给loc()函数来选择行。参考以下示例代码 -

import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df.loc['b'])

'''
one 2.0
two 2.0
Name: b, dtype: float64
'''

结果是一系列标签作为DataFrame的列名称。而且，系列的名称是检索的标签。

按整数位置选择

可以通过将整数位置传递给iloc()函数来选择行。参考以下示例代码 -

import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df.iloc[2])

'''
one   3.0
two   3.0
Name: c, dtype: float64
'''

行切片

可以使用:运算符选择多行。参考以下示例代码 -

import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
    'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df[2:4])

'''
      one    two
c     3.0     3
d     NaN     4
'''

附加行

使用append()函数将新行添加到DataFrame。此功能将附加行结束。

import pandas as pd

df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])

df = df.append(df2)
print(df)

'''
   a  b
0  1  2
1  3  4
0  5  6
1  7  8
'''

删除行

使用索引标签从DataFrame中删除或删除行。如果标签重复，则会删除多行。

import pandas as pd

df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
print(df)
print('\n')

df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])
print(df2)
print('\n')

df = df.append(df2)
print(df)
print('\n')

# Drop rows with label 0
df = df.drop(0)
print(df)

'''
    a   b
0  1   2
1  3   4


     a    b
0   5    6
1   7   8


　  a   b
0   1   2
1   3   4
0   5   6
1   7   8


　  a   b
1   3   4
1   7   8
'''

在上面的例子中，一共有两行被删除，因为这两行包含相同的标签0。

四、Panel 面板

面板(Panel)是3D容器的数据。面板数据一词来源于计量经济学，部分源于名称：Pandas - pan(el)-da(ta)-s。

3轴(axis)这个名称旨在给出描述涉及面板数据的操作的一些语义。它们是 -

items - axis 0，每个项目对应于内部包含的数据帧(DataFrame)。
major_axis - axis 1，它是每个数据帧(DataFrame)的索引(行)。
minor_axis - axis 2，它是每个数据帧(DataFrame)的列。

1. pandas.Panel()

可以使用以下构造函数创建面板 -

pandas.Panel(data, items, major_axis, minor_axis, dtype, copy)

参数	描述
`data`	数据采取各种形式，如：`ndarray`，`series`，`map`，`lists`，`dict`，`constant`和另一个数据帧(`DataFrame`)
`items`	`axis=0`
`major_axis`	`axis=1`
`minor_axis`	`axis=2`
`dtype`	每列的数据类型
`copy`	复制数据，默认 - `false`

2. 创建面板

可以使用多种方式创建面板 -

从ndarrays创建
从DataFrames的dict创建

2.1 从3D ndarray创建

# creating an empty panel
import pandas as pd
import numpy as np

data = np.random.rand(2,4,5)
p = pd.Panel(data)
print p

'''
<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 4 (major_axis) x 5 (minor_axis)
Items axis: 0 to 1
Major_axis axis: 0 to 3
Minor_axis axis: 0 to 4
'''

注意 - 观察空面板和上面板的尺寸大小，所有对象都不同。

2.2 从DataFrame对象的dict创建面板

#creating an empty panel
import pandas as pd
import numpy as np

data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)), 
        'Item2' : pd.DataFrame(np.random.randn(4, 2))}
p = pd.Panel(data)
print p

'''
<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 4 (major_axis) x 5 (minor_axis)
Items axis: 0 to 1
Major_axis axis: 0 to 3
Minor_axis axis: 0 to 4
'''

2.3 创建一个空面板

可以使用Panel的构造函数创建一个空面板，如下所示：

#creating an empty panel
import pandas as pd

p = pd.Panel()
print p

'''
<class 'pandas.core.panel.Panel'>
Dimensions: 0 (items) x 0 (major_axis) x 0 (minor_axis)
Items axis: None
Major_axis axis: None
Minor_axis axis: None
'''

3. 从面板中选择数据

要从面板中选择数据，可以使用以下方式 -

Items
Major_axis
Minor_axis

使用Items

# creating an empty panel
import pandas as pd
import numpy as np

data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)), 
        'Item2' : pd.DataFrame(np.random.randn(4, 2))}
p = pd.Panel(data)
print p['Item1']

'''
            0          1          2
0    0.488224  -0.128637   0.930817
1    0.417497   0.896681   0.576657
2   -2.775266   0.571668   0.290082
3   -0.400538  -0.144234   1.110535
'''

上面示例有两个数据项，这里只检索item1。结果是具有4行和3列的数据帧(DataFrame)，它们是Major_axis和Minor_axis维。

使用major_axis

可以使用panel.major_axis(index)方法访问数据。参考以下示例代码 -

# creating an empty panel
import pandas as pd
import numpy as np

data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)), 
        'Item2' : pd.DataFrame(np.random.randn(4, 2))}
p = pd.Panel(data)
print p.major_xs(1)

'''
      Item1       Item2
0   0.417497    0.748412
1   0.896681   -0.557322
2   0.576657       NaN
'''

使用minor_axis

可以使用panel.minor_axis(index)方法访问数据。参考以下示例代码 -

# creating an empty panel
import pandas as pd
import numpy as np

data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)), 
        'Item2' : pd.DataFrame(np.random.randn(4, 2))}
p = pd.Panel(data)
print p.minor_xs(1)

'''
       Item1       Item2
0   -0.128637   -1.047032
1    0.896681   -0.557322
2    0.571668    0.431953
3   -0.144234    1.302466
'''

注意 - 观察尺寸大不的变化。

2021-12-31 Python-23
pandas pandas数据结构 pandas 有 2 个常用的数据结构：Series 和 Dataframe一...
pandas
pandas 入门 pandas 的数据结构介绍 pandas 有两个重要的数据结构：Series和DataFra...
pandas入门 02 数据结构
0 pandas数据结构简介 pandas主要处理下面三种数据结构 Series DataFrame Panel ...
Pandas-2019-03-14
Pandas Pandas 介绍 Pandas主要处理的数据结构 ·系列（Series）·数据帧（DataFram...
pandas 数据结构简介
pandas 数据结构及构建 pandas 主要有两种数据结构： Series 和 DataFrame。Serie...
pandas入门
引入pandas和常用的数据结构Series，DataFrame 一、pandas的数据结构的介绍 1.Serie...
使用python进行数据分析<五>(pandas入门
pandas基于Numpy构建 pandas 的数据结构介绍 Series DataFrame
刺猬教你量化投资(五):Pandas入门
Pandas基础概念数据结构 Pandas中的数据结构有四种，分别是Series、time series、dat...
Pandas基本功能
1.Pandas基本数据结构 Pandas两种常用的数据结构:Series 和 DataFrame。其中Serie...
Pandas 01 数据结构
一、数据结构 Pandas的三种数据结构：系列(Series) 数据帧(DataFrame) 面板(Panel)...

Pandas 01 数据结构

一、数据结构

维数和描述

1、系列

2、数据帧

3、面板

二、Series 系列

pandas.Series

（1） 创建一个空的系列

（2） 从ndarray创建一个系列

（3） 从字典创建一个系列

（4） 从标量创建一个系列

（5） 从具有位置的系列中访问数据

（6）使用标签检索数据(索引)

三、DataFrame 数据帧

pandas.DataFrame

1 创建DataFrame

1.1 创建一个空的DataFrame

1.2 从列表创建DataFrame

1.3 从ndarrays/Lists的字典来创建DataFrame

1.4 从字典列表创建数据帧DataFrame

1.5 从系列的字典来创建DataFrame

2 列选择，添加和删除。

列选择

列添加

列删除

3 行选择，添加和删除

行选择

行切片

四、Panel 面板

1. pandas.Panel()

2. 创建面板

2.1 从3D ndarray创建

2.2 从DataFrame对象的dict创建面板

2.3 创建一个空面板

3. 从面板中选择数据

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

（1）创建一个空的系列

（2）从ndarray创建一个系列

（3）从字典创建一个系列

（4）从标量创建一个系列

（5）从具有位置的系列中访问数据