美文网首页
1、Pandas数据观察

1、Pandas数据观察

作者: thelong的学习日记 | 来源:发表于2020-08-17 22:39 被阅读0次

    1、加载数据

    1.1 导入相关库

    import numpy as np
    import pandas as pd
    

    1.2 载入数据

    使用相对路径载入文件

    df = pd.read_csv('./train.csv')
    

    使用绝对位置载入文件

    df = pd.read_csv('/Users/../train.csv')
    

    查看当前位置

    print(os.getcwd())
    

    内存不足时,需要逐块读取

    chunker = pd.read_csv('train.csv',chunksize = 1000)
    for data in chunker:
          ....
          ....
    

    2、观察数据

    df.info()   #查看数据的基本信息
    df.head(10)  #查看前十行
    df.tail(15)    #查看后15行
    df.describe() #查看数据基本统计信息
    df.column() #查看Dataframe数据的所有列
    df['Cabin']  #查看“Cabin”这列的所有样本
    

    3、筛选

    3.1、以“Age”为筛选条件,显示年龄在10岁以下的乘客信息

    df[df['Age']<10]
    

    3.2、以“Age”为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来

    df[(df['Age']>10)&(df['Age']<50)]
    

    3.3、将数据中第100行的“Pclass”和“Sex”的数据显示出来

    # index需要重新设置
    df.reset_index(drop = True)
    df.loc[[100],['Pclass','Sex']]
    
    3.4、 使用iloc方法将数据中第100,105,108行的“Pclass”,“Name”,“Sex”的数据显示出来
    df.iloc[[100,105,108],[2,3,4]]
    

    4、使用pandas对数据进行排序

    4.1、按行索引升序排序

    df.sort_index()
    

    4.2、让列索引升序排序

    df.sort_index(axis=1)
    

    4.3、让列索引降序排序

    df.sort_index(axis=1,ascending=False)
    

    4.4、让任选两列数据同时降序排序

    df.sort_values(by=['a','b'])
    

    Example

    #自己构建一个都为数字的DataFrame数据
    frame = pd.DataFrame(np.arange(8).reshape((2, 4)), 
                         index=['2', '1'], 
                         columns=['d', 'a', 'b', 'c'])
    print(frame)
    -----------------
        d   a   b   c
    2   0   1   2   3
    1   4   5   6   7
    

    按某一列排序

    # 大多数时候我们都是想根据列的值来排序,所以,将你构建的DataFrame中的数据根据某一列,降序排列
    frame.sort_values(by='c', ascending=False)
    ------------------
        d   a   b   c
    1   4   5   6   7
    2   0   1   2   3
    

    相关文章

      网友评论

          本文标题:1、Pandas数据观察

          本文链接:https://www.haomeiwen.com/subject/xskljktx.html