美文网首页
《pandas入门》之数据结构

《pandas入门》之数据结构

作者: 江河于田 | 来源:发表于2017-11-19 00:43 被阅读0次

前言

pandas有两种数据结构,其中主要得是Series和DateFrame,本文主要讲解和记录这两种种数据的结构和操作。

第一种结构:Series

Series是一种类似一维数组的数据结构,它由一组数据和一组相对应的索引组成,Series的创建形式是Series(list,index=),需要显式的指出index,若不显式指出index ,则自动创建0到N-1的索引。

obj_1 = pd.Series([1,2,3,4])
print obj_1
print type(obj_1)     
print obj_1.values    
print type(obj_1.values )    
print obj_1.index     
输出:
0    1
1    2
2    3
3    4
dtype: int64
<class 'pandas.core.series.Series'>
[1 2 3 4]
<type 'numpy.ndarray'>
RangeIndex(start=0, stop=4, step=1)

obj_2 = pd.Series([1,2,3,4],index=["a","b","c","d"])
print obj_2
print obj_2.values    #[1 2 3 4]
print obj_2.index     
#Index([u'a', u'b', u'c', u'd'], dtype='object')
输出:
a    1
b    2
c    3
d    4
dtype: int64

[1 2 3 4]
Index([u'a', u'b', u'c', u'd'], dtype='object')

Series还有一些其他的数据特性:

# Series 索引可以修改但是值不能修改
obj_22 = pd.Series([1,2,3,4],index=["a","b","c","d"])
obj_22.index = ['e','f','g','h']
print obj_22.index
输出:
Index([u'e', u'f', u'g', u'h'], dtype='object')

# Series对象还有name属性,相当于是增加列名
obj_22.name = "population"
obj_22.index.name = "state"
print obj_22
输出:
state
e    1
f    2
g    3
h    4
Name: population, dtype: int64

# 索引操作符合numpy数组的运算
print obj_2["a"]
print obj_2 * 2
输出:
1
a    2
b    4
c    6
d    8
dtype: int64

# 注意以下操作,直接在索引位置筛选值
print obj_2[obj_2>2]
输出:
c    3
d    4
dtype: int64

# 因为Series 可以看做是一个定长的有序字典,因为它是一个索引值到数据值的映射
print  'a' in obj_2    
print  'e' in obj_2
输出:
True
False

# 所以可以直接用dict建立Series,若不指定索引,则使用字典的key,
# 若指定则使用指定值,指定中索引重复的输出值,索引没值的则输出NAN

sdate = {"A":1000,"B":2000,"C":3000,"D":4000}
obj_3 = pd.Series(sdate)
print obj_3
输出:
A    1000
B    2000
C    3000
D    4000

stats = {"a","b","C","D"}
obj_4 = pd.Series(sdate,index=stats)
print obj_4
输出:
a       NaN
C    3000.0
b       NaN
D    4000.0
dtype: float64

# pandas 中 isnull 和 notnull 函数用来检测缺失值
print obj_4.isnull
print obj_4.notnull
输出:
<bound method Series.isnull of 
a       NaN
C    3000.0
b       NaN
D    4000.0
dtype: float64>
<bound method Series.notnull of 
a       NaN
C    3000.0
b       NaN
D    4000.0
dtype: float64>

# 推荐用以下的判断方式
print pd.isnull(obj_4)
print pd.notnull(obj_4)
输出:
a     True
C    False
b     True
D    False
dtype: bool
a    False
C     True
b    False
D     True
dtype: bool

第二种结构 DataFrame

DataFrame是一个表格型的数据结构,它的数据存储在一个或多个的二维模块中,它含有一组有序的列数据,可以理解为列名,每列的数据类型可以不一样,所以,DataFrame有行索引和列索引两种检索方式,这两种操作是平衡的。

#创建
data = {"name":["zhang","li","wang"],"num":[1,2,3],"value":[1.5,2.0,3.0]}
fram = pd.DataFrame(data)
输出
    name  num  value
0  zhang    1    1.5
1     li    2    2.0
2   wang    3    3.0



# 可以指定列序列 columns可以理解为列名
fram_1 = pd.DataFrame(data=data,columns=["name","value","num"],index=["a","b","c"])
#输出:
    name  value  num
a  zhang    1.5    1
b     li    2.0    2
c   wang    3.0    3


# 当传入的列在数据中找不到,则显示NAN
fram_2 = pd.DataFrame(data=data,columns=["name","value","num","test"],index=["a","b","c"])
#输出:
    name  value  num test
a  zhang    1.5    1  NaN
b     li    2.0    2  NaN
c   wang    3.0    3  NaN

# 可以把列数据(列名)理解为索引,获得一个Series
# 列索引皆可看做是DataFrame的属性输出数据
fram_2.columns   # 输出列数据
#输出:
Index([u'name', u'value', u'num', u'test'], dtype='object')

fram_2["value"]
#输出
a    1.5
b    2.0
c    3.0
Name: value, dtype: float64

fram_2.name
#输出
a    zhang
b       li
c     wang
Name: name, dtype: object


# 可以给某列赋值,当该列不存在的时候增加该列,
fram_2["test"] = 16.5
#输出:
    name  value  num  test
a  zhang    1.5    1  16.5
b     li    2.0    2  16.5
c   wang    3.0    3  16.5

del fram_2["test"]
#输出:
    name  value  num
a  zhang    1.5    1
b     li    2.0    2
c   wang    3.0    3

# 行索引不能直接获取,需要使用索引字段
# loc只能通过索引值获取,而iloc是通过行号来获取,
# ix是将两者结合起来,即通过行号又通过索引值来获取
print fram_2.loc["b"]
print fram_2.iloc[2]
print fram_2.ix["b"]
#输出
name     li
value     2
num       2
Name: b, dtype: object
name     wang
value       3
num         3
Name: c, dtype: object
name     li
value     2
num       2
Name: b, dtype: object


fram_2.index.name = "row"
fram_2.columns.name = "col"
#输出
col   name  value  num
row                   
a    zhang    1.5    1
b       li    2.0    2
c     wang    3.0    3

# 对于嵌套的字典数据类型,外层字典的键是列索引,内层键作为行索引
op = {"A":{"a":100,"b":200},"B":{"a":111,"c":222}}
fram_3 = pd.DataFrame(op)
输出:
       A      B
a  100.0  111.0
b  200.0    NaN
c    NaN  222.0

一生顺利,一生被爱。

相关文章

  • pandas

    pandas 入门 pandas 的数据结构介绍 pandas 有两个重要的数据结构:Series和DataFra...

  • pandas入门

    pandas入门 简介 pandas包含的数据结构和操作工具能快速简单地清洗和分析数据。 pandas经常与Num...

  • 第二章:Pandas入门-1

    第二章:pandas入门 2.1 pandas数据结构介绍 2.1.1 Series Series是一种一维的数据...

  • 2020-02-12

    Pandas笔记之创建 Pandas DataFrame DataFrame为Pandas的第二种主要数据结构,是...

  • 《pandas入门》之数据结构

    前言 pandas有两种数据结构,其中主要得是Series和DateFrame,本文主要讲解和记录这两种种数据的结...

  • 第5章 Pandas入门(1)

    以下内容主要学习自《利用Python进行数据分析》 第5章 Pandas入门(1) pandas所包含的数据结构和...

  • 2021-12-31 Python-23

    pandas pandas数据结构 pandas 有 2 个常用的数据结构:Series 和 Dataframe一...

  • pandas入门 02 数据结构

    0 pandas数据结构简介 pandas主要处理下面三种数据结构 Series DataFrame Panel ...

  • Pandas-2019-03-14

    Pandas Pandas 介绍 Pandas主要处理的数据结构 ·系列(Series)·数据帧(DataFram...

  • pandas 数据结构简介

    pandas 数据结构及构建 pandas 主要有两种数据结构: Series 和 DataFrame。Serie...

网友评论

      本文标题:《pandas入门》之数据结构

      本文链接:https://www.haomeiwen.com/subject/ezxuvxtx.html