Pandas入门

作者: 深思海数_willschang | 来源:发表于2016-09-27 17:44 被阅读571次

    Pandas官网

    pandas

    pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

    【百度】Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。

    两个主要数据结构:Series,DataFrame

    Series

    Series是一种类似于一维数组的对象,与Numpy中的一维array类似。

    from pandas import Series, DataFrame
    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    
    ser = Series([4, 6, 7, 2, 9])
    print(ser)
    print(ser.values)
    print(ser.index)
    
    ser1 = Series([4, 5, 7, 4], index=['d', 'b', 'a', 'c'])
    print(ser1)
    print(ser1.index)
    print(ser1['c'])
    
    pd.isnull(ser)
    pd.notnull(ser)
    ser.isnull()
    '''
    0    4
    1    6
    2    7
    3    2
    4    9
    dtype: int64
    [4 6 7 2 9]
    RangeIndex(start=0, stop=5, step=1)
    d    4
    b    5
    a    7
    c    4
    dtype: int64
    Index(['d', 'b', 'a', 'c'], dtype='object')
    4
    Out[12]:
    0    False
    1    False
    2    False
    3    False
    4    False
    dtype: bool
    '''
    

    方法:pd.isnull(obj),pd.notnull(obj), obj.isnull()
    属性:name, index.name

    SeriesObj.name = 'SeriesTest'
    SeriesObj.index.name = 'gender'
    

    在算术运算中Series会自动对齐不同索引的数据进行运算

    DataFrame

    DataFrame是一个表格型的数据结构,含有一组有序的列,每列可以是不同的值类型,不仅有行索引也有列索引。

    data1 = {
        'name': ['wills', 'april', 'chang', 'hang'],
        'gender': ['m', 'f', 'm', 'm'],
        'age': [30, 26, 30, 24]
    }
    
    df1 = DataFrame(data1)
    #指定列的顺序
    df2 = DataFrame(data1, columns=['age', 'gender', 'name'])
    
    #删除某列
    del df2['gender']
    
    dataframe 删除某列

    相关文章

      网友评论

        本文标题:Pandas入门

        本文链接:https://www.haomeiwen.com/subject/gtacyttx.html