美文网首页
《pandas入门》之数据结构

《pandas入门》之数据结构

作者: 江河于田 | 来源:发表于2017-11-19 00:43 被阅读0次

    前言

    pandas有两种数据结构,其中主要得是Series和DateFrame,本文主要讲解和记录这两种种数据的结构和操作。

    第一种结构:Series

    Series是一种类似一维数组的数据结构,它由一组数据和一组相对应的索引组成,Series的创建形式是Series(list,index=),需要显式的指出index,若不显式指出index ,则自动创建0到N-1的索引。

    obj_1 = pd.Series([1,2,3,4])
    print obj_1
    print type(obj_1)     
    print obj_1.values    
    print type(obj_1.values )    
    print obj_1.index     
    输出:
    0    1
    1    2
    2    3
    3    4
    dtype: int64
    <class 'pandas.core.series.Series'>
    [1 2 3 4]
    <type 'numpy.ndarray'>
    RangeIndex(start=0, stop=4, step=1)
    
    obj_2 = pd.Series([1,2,3,4],index=["a","b","c","d"])
    print obj_2
    print obj_2.values    #[1 2 3 4]
    print obj_2.index     
    #Index([u'a', u'b', u'c', u'd'], dtype='object')
    输出:
    a    1
    b    2
    c    3
    d    4
    dtype: int64
    
    [1 2 3 4]
    Index([u'a', u'b', u'c', u'd'], dtype='object')
    
    

    Series还有一些其他的数据特性:

    # Series 索引可以修改但是值不能修改
    obj_22 = pd.Series([1,2,3,4],index=["a","b","c","d"])
    obj_22.index = ['e','f','g','h']
    print obj_22.index
    输出:
    Index([u'e', u'f', u'g', u'h'], dtype='object')
    
    # Series对象还有name属性,相当于是增加列名
    obj_22.name = "population"
    obj_22.index.name = "state"
    print obj_22
    输出:
    state
    e    1
    f    2
    g    3
    h    4
    Name: population, dtype: int64
    
    # 索引操作符合numpy数组的运算
    print obj_2["a"]
    print obj_2 * 2
    输出:
    1
    a    2
    b    4
    c    6
    d    8
    dtype: int64
    
    # 注意以下操作,直接在索引位置筛选值
    print obj_2[obj_2>2]
    输出:
    c    3
    d    4
    dtype: int64
    
    # 因为Series 可以看做是一个定长的有序字典,因为它是一个索引值到数据值的映射
    print  'a' in obj_2    
    print  'e' in obj_2
    输出:
    True
    False
    
    # 所以可以直接用dict建立Series,若不指定索引,则使用字典的key,
    # 若指定则使用指定值,指定中索引重复的输出值,索引没值的则输出NAN
    
    sdate = {"A":1000,"B":2000,"C":3000,"D":4000}
    obj_3 = pd.Series(sdate)
    print obj_3
    输出:
    A    1000
    B    2000
    C    3000
    D    4000
    
    stats = {"a","b","C","D"}
    obj_4 = pd.Series(sdate,index=stats)
    print obj_4
    输出:
    a       NaN
    C    3000.0
    b       NaN
    D    4000.0
    dtype: float64
    
    # pandas 中 isnull 和 notnull 函数用来检测缺失值
    print obj_4.isnull
    print obj_4.notnull
    输出:
    <bound method Series.isnull of 
    a       NaN
    C    3000.0
    b       NaN
    D    4000.0
    dtype: float64>
    <bound method Series.notnull of 
    a       NaN
    C    3000.0
    b       NaN
    D    4000.0
    dtype: float64>
    
    # 推荐用以下的判断方式
    print pd.isnull(obj_4)
    print pd.notnull(obj_4)
    输出:
    a     True
    C    False
    b     True
    D    False
    dtype: bool
    a    False
    C     True
    b    False
    D     True
    dtype: bool
    

    第二种结构 DataFrame

    DataFrame是一个表格型的数据结构,它的数据存储在一个或多个的二维模块中,它含有一组有序的列数据,可以理解为列名,每列的数据类型可以不一样,所以,DataFrame有行索引和列索引两种检索方式,这两种操作是平衡的。

    #创建
    data = {"name":["zhang","li","wang"],"num":[1,2,3],"value":[1.5,2.0,3.0]}
    fram = pd.DataFrame(data)
    输出
        name  num  value
    0  zhang    1    1.5
    1     li    2    2.0
    2   wang    3    3.0
    
    
    
    # 可以指定列序列 columns可以理解为列名
    fram_1 = pd.DataFrame(data=data,columns=["name","value","num"],index=["a","b","c"])
    #输出:
        name  value  num
    a  zhang    1.5    1
    b     li    2.0    2
    c   wang    3.0    3
    
    
    # 当传入的列在数据中找不到,则显示NAN
    fram_2 = pd.DataFrame(data=data,columns=["name","value","num","test"],index=["a","b","c"])
    #输出:
        name  value  num test
    a  zhang    1.5    1  NaN
    b     li    2.0    2  NaN
    c   wang    3.0    3  NaN
    
    # 可以把列数据(列名)理解为索引,获得一个Series
    # 列索引皆可看做是DataFrame的属性输出数据
    fram_2.columns   # 输出列数据
    #输出:
    Index([u'name', u'value', u'num', u'test'], dtype='object')
    
    fram_2["value"]
    #输出
    a    1.5
    b    2.0
    c    3.0
    Name: value, dtype: float64
    
    fram_2.name
    #输出
    a    zhang
    b       li
    c     wang
    Name: name, dtype: object
    
    
    # 可以给某列赋值,当该列不存在的时候增加该列,
    fram_2["test"] = 16.5
    #输出:
        name  value  num  test
    a  zhang    1.5    1  16.5
    b     li    2.0    2  16.5
    c   wang    3.0    3  16.5
    
    del fram_2["test"]
    #输出:
        name  value  num
    a  zhang    1.5    1
    b     li    2.0    2
    c   wang    3.0    3
    
    # 行索引不能直接获取,需要使用索引字段
    # loc只能通过索引值获取,而iloc是通过行号来获取,
    # ix是将两者结合起来,即通过行号又通过索引值来获取
    print fram_2.loc["b"]
    print fram_2.iloc[2]
    print fram_2.ix["b"]
    #输出
    name     li
    value     2
    num       2
    Name: b, dtype: object
    name     wang
    value       3
    num         3
    Name: c, dtype: object
    name     li
    value     2
    num       2
    Name: b, dtype: object
    
    
    fram_2.index.name = "row"
    fram_2.columns.name = "col"
    #输出
    col   name  value  num
    row                   
    a    zhang    1.5    1
    b       li    2.0    2
    c     wang    3.0    3
    
    # 对于嵌套的字典数据类型,外层字典的键是列索引,内层键作为行索引
    op = {"A":{"a":100,"b":200},"B":{"a":111,"c":222}}
    fram_3 = pd.DataFrame(op)
    输出:
           A      B
    a  100.0  111.0
    b  200.0    NaN
    c    NaN  222.0
    

    一生顺利,一生被爱。

    相关文章

      网友评论

          本文标题:《pandas入门》之数据结构

          本文链接:https://www.haomeiwen.com/subject/ezxuvxtx.html