Pandas的使用

作者: 何同尘 | 来源:发表于2019-01-18 22:49 被阅读2次

    Pandas是在numpy上加强的包,是高效实施数据框的包。DataFrame的本质是可以容纳不同数据类型的数组。并且还有数组名。

    安装和导入

    import pandas
    import pandas as pd
    

    从三个方面认识pandas

    Series DataFrame Index

    import numpy as np
    import pandas as pd
    

    series

    Pandas的series对象是一个一维的有索引数组,可以通过列表创建。

    >>> data = pd.Series([0.25, 0.5, 0.75, 1.0])
    >>> data
    0    0.25
    1    0.50
    2    0.75
    3    1.00
    dtype: float64
    

    Series包含一个有顺序的值和一个有顺序的索引。
    可以通过:data.index data.value 来访问。

    可以看到,Series比numpy一维数组更加灵活。

    创建:

    #通过列表创建
    data = pd.Series([0.25, 0.5, 0.75, 1.0],
                     index=['a', 'b', 'c', 'd'])
    #通过字典来创建
    population_dict = {'California': 38332521,
                       'Texas': 26448193,
                       'New York': 19651127,
                       'Florida': 19552860,
                       'Illinois': 12882135}
    population = pd.Series(population_dict)
    #广播数组创建
    pd.Series(5, index=[100, 200, 300])
    

    DataFrame

    DataFrame 是多行Series构成的,具有行索引index,和 列名 columns。
    可以通过 data.index 和 data.columns访问。
    创建DataFrame对象

    #通过简单的Series对象
    states = pd.DataFrame({'serie1':serie1,'serie2':serie2})
    
    #通过字典创建
    data = [{'a':i,'b':2*i} for i in range(3)]
    pd.DateFrame(data)
    
    #通过一个二维numpy数组
    A = np.zeros(3,dtype=[('A','i8'),('B','f8')])
    A
    pd.DataFrame(A)
    
    

    pandas中的Index对象

    pandas的对象最主要的区别就是有index,和colomns.
    index 就如同一个数组。也可以直接访问

    ind = pd.Index([2,3,5,7,11])
    ind
    ind[::2]
    #索引之间的联合操作
    indA = pd.Index([1, 3, 5, 7, 9])
    indB = pd.Index([2, 3, 5, 7, 11])
    indA & indB  # intersection
    indA | indB  # union
    indA ^ indB  # symmetric difference
    

    相关文章

      网友评论

        本文标题:Pandas的使用

        本文链接:https://www.haomeiwen.com/subject/hlvodqtx.html