美文网首页程序员
pandas学习笔记(二)

pandas学习笔记(二)

作者: Vee__ | 来源:发表于2018-12-19 16:26 被阅读0次

    Series和DataFrame的基本操作

    本文均以以下数据为操作演示

    >>>import pandas as pd
    >>> s = pd.Series([1,2,3,4], index=['a','b','c','d'])
    >>> s
    a    1
    b    2
    c    3
    d    4
    dtype: int64
    >>> df = pd.DataFrame([[1,2,3,4],[5,6,7,8]], columns=['A','B','C','D'],index=['a', 'b'])
    >>> df
       A  B  C  D
    a  1  2  3  4
    b  5  6  7  8
    

    一、对象基本属性

    1. s.shape 和 df.shape

    shape属性是一个元组,记录Series和DataFrame的尺寸

    >>>s.shape   # Series是一维数据结构,只有行数,所以DataFrame的数据结构很好理解,就是由多个Series拼接成的
    (4,)
    >>>df.shape
    (2,4)
    
    2. columns

    DataFrame才有的属性,返回列名

    >>> df.columns
    Index(['A', 'B', 'C', 'D'], dtype='object')
    
    3. s.index 和 df.index

    index获取索引,返回一个Index对象

    >>> s.index
    Index(['a', 'b', 'c', 'd'], dtype='object')
    >>> df.index
    Index(['a', 'b'], dtype='object')
    
    4. s.axes 和 df.axes

    同时获取index 和 columns
    返回一个列表,列表包含[索引对象,列名对象]

    >>> df.axes
    [Index(['a', 'b'], dtype='object'), Index(['A', 'B', 'C', 'D'], dtype='object')]
    >>> s.axes               # Series没有列名,只有索引
    [Index(['a', 'b', 'c', 'd'], dtype='object')]
    
    5. 转置

    Series 和 DataFrame都有的属性,不过对于Series没什么用

    >>> df.T       # 不作原地转置,需要用一个参数去接收
       a  b
    A  1  5
    B  2  6
    C  3  7
    D  4  8
    

    二、数据选择

    1. 单行单列选择

    取行数据必须加冒号 :
    可以由索引值代替整数值

    >>>df['a':]     # 从索引a行取到最后一行
    >>> df[0:1]   # 只取第一行 
       A  B  C  D
    a  1  2  3  4
    >>> df['A']   # 取A列
    a    1
    b    5
    Name: A, dtype: int64
    

    这种方式不可以像数组那样多维取值,只能单行单列,所以加逗号会报错
    Series是一维数据结构,可以使用Python列表的索引方式去选择数据

    >>> s['a']
    1
    dtype: int64
    >>> s[1]
    2
    >>> s[1:]
    b    2
    c    3
    d    4
    dtype: int64
    >>> s['a':]
    a    1
    b    2
    c    3
    d    4
    dtype: int64
    
    2.区域块选择数据

    loc,iloc,x,ix,都可以用作Series和DataFrame的数据选择,其中xix在pandas0.20以上的版本已经被弃用,这里不作介绍

    • loc --取多行多列,参数只能为标签值(即索引值和列名)
    • iloc --取多行多列,参数只能为整数标号
      使用方法为 对象名.loc[ 索引,列名 ] 或者 对象名.iloc[行号,标号]
    >>>df.loc['a': 'A']   # 选择 'a'行'A'列的值
    1
    >>>df.iloc[0, 0]    # 选择 第0行第0列的值
    1
    # 以上两行代码等价
    >>> df.loc['a','A':]    # 选择第'a'行列号为'A'后面的数据(包括列号'A'的数据)
    A    1
    B    2
    C    3
    D    4
    Name: a, dtype: int64
    >>> df.iloc[0,0:]         # 选择第0行列号为0后面的数据(包括列号0的数据)
    A    1
    B    2
    C    3
    D    4
    Name: a, dtype: int64
    
    3.单元格选择
    • at --取某个单元格的值,参数只能为标签值(即索引值和列名)
    • iat --取某个单元格的值,参数只能是整数标号
      at 顾名思义 在,就是在某个地方的,接收一个准确的地址

    使用方法为 对象名.at[ 索引,列名 ] 或者 对象名.iat[行号,标号]

    >>> df.at['a','A']   # 选择'a'行'A'列的值
    1
    >>> df.iat[0,0]    # 选择0行0列的值
    1
    

    相关文章

      网友评论

        本文标题:pandas学习笔记(二)

        本文链接:https://www.haomeiwen.com/subject/lydjkqtx.html