美文网首页
Pandas 数据处理(一) —— 几个简单函数掌握!

Pandas 数据处理(一) —— 几个简单函数掌握!

作者: 小张Python | 来源:发表于2020-07-02 12:46 被阅读0次

    上一阶段公号更新了 OpenCV 的一些小案例,在接下来的一段时间里公号的更文计划向 Pandas、Numpy、Matplotlib 关于数据处理、可视化的方向侧重;偶尔会加入几篇 Python 自动化办公相关文章,小伙伴们关于推文方向有什么建议的话可以发在下方评论里,也可以在后台私信我。

    对于 Pandas, 接触过 Python 数据处理的小伙伴们都应该挺熟悉的,做数据处理不可或缺的一个程序包,最大的特点高效,本篇文章将通过案例介绍一下 Pandas 的一些基础使用!

    1,读入数据

    大部分数据都可以用 read_csv() 函数读入,函数中有个 sep 参数,表示数据的分隔符,默认为 “,” (因为大部分 csv 文件数据之间就是以 ,隔开的)

    users = pd.read_csv("https://raw.githubusercontent.com/justmarkham/DAT8/master/data/u.user",
                       sep = '|')# Read data;
    users
    

    原始数据:

    Snipaste_2020-06-13_08-22-39.png

    读取之后的数据:

    Snipaste_2020-06-13_08-26-03.png

    除了 read_csv 之外,还有一个常用的 read_table函数也可进行读取操作,用法与 read_csv 相似

    2,改变索引值,只展示前几行数据

    set_index() 函数用来改变索引值,注意需要加一个参数 replace = True 表示替代; 利用 head(n) 函数表示只展示前 n 行数据

    users.set_index('user_id',inplace = True)
    users.head(25)
    
    Snipaste_2020-06-13_08-26-13.png

    tail(n) 只展示后几行数据;

    3,查看数据的行和列的基本信息

    1,shape 返回 数据的行数和列数,以 tuple 形式返回;

    users.shape
    
    # (943, 4)
    

    2,columns 返回数据列名;

    users.columns
    
    # Index(['age', 'gender', 'occupation', 'zip_code'], dtype='object')
    

    3,index 返回行名;

    users.index
    
    Int64Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,
                ...
                934, 935, 936, 937, 938, 939, 940, 941, 942, 943],
               dtype='int64', name='user_id', length=943)
    

    4,dtypes 返回各列的数据类型;

    users.dtypes
    
    
    # age            int64
    gender        object
    occupation    object
    zip_code      object
    dtype: object
    

    4,只选取某列或多列数据

    Pandas 提供多种方式可供选择,注:users 表示 Pandas 可处理的DataFrame 格式;

    1,users.列名;

    users.occupation
    

    2,users[['列名']];

    users[['occupation']]
    

    3,users.loc[:,['列名']];

    users.loc[:,['occupation']]
    
    Snipaste_2020-06-13_10-39-00.png

    同时选取多列数据时

    1,users[['列名1','列名2']];

    users[['occupation','age']]
    

    2,users.loc[:,['列名1','列名2']];

    users.loc[:,['occupation','age']]
    
    Snipaste_2020-06-13_20-49-34.png

    5,对列中数据做去重统计

    1,列名.nunique() 查看某一列数据有多少个不重复样本;

    users.occupation.nunique()
    
    
    # 21
    

    也可以通过这种方式实现

    列名.value_counts().count()

    users.occupation.value_counts().count()
    
    
    # 21
    

    如果想在1 的基础之上,查看每一个不重复样本在数据列表冲出现了几次,可用下面语句

    users.列名.value_counts()

    users.occupation.value_counts().head()
    
    
    # student          196
    other            105
    educator          95
    administrator     79
    engineer          67
    Name: occupation, dtype: int64
    

    6,对数据列表中的数字列做个简单统计

    users.describe() 即可实现,默认统计的是 numeric columns(列中数据都是以数值进行展示的)

    users.describe()
    
    Snipaste_2020-06-13_20-49-55.png

    当然也可以统计全部列,加一个参数 include = 'all';

    users.describe(include = 'all')
    
    Snipaste_2020-06-13_20-50-02.png

    users.列名.describe() 也可以对指定列进行统计:

    users.occupation.describe()
    
    #count         943
    unique         21
    top       student
    freq          196
    Name: occupation, dtype: object
    

    7,对数据做组聚类

    groupby 函数对某一列做聚类操作,返回的是 GroupBy 对象;与 5 中方法相似,区别是 groupby 是以聚类后的列为参照,查看其他列的数据统计情况

    c =users.groupby("occupation")
    c
    
    # <pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000017673002788>
    

    GroupBy.head(n) 查看前 n 行数据

    c.head(5)
    

    GroupBy.cout() 对每个样本对应其他列进行数据统计

    c.count()
    

    GroupBy.size() 统计列中每个样本出现次数

    c.size()
    

    还有其它许可操作的函数,

    Snipaste_2020-06-13_10-33-50.png

    详细的可去官网上查询:https://pandas.pydata.org/docs/reference/groupby.html

    8,对数据按照某一列进行排序

    用到 data.sort_values() 函数,默认从小到大,可以设置 ascending = False 设置为从大到小;

    users.sort_values(["age"],ascending = False)
    

    也可以参考多个列进行排序:

    users.sort_values(["age","zip_code"],ascending = False)
    
    double_columns_sort.png

    9,创建新的列

    加入新的列比较简单,创建一个 Series (行数需与原列表数据行数保持一致),赋值到源数据即可

    data['列名'] = 新创建的 series;下面我利用对 age 中数据进行均一化,把数据存放在新的列 age_normalize 中

    Snipaste_2020-06-13_10-57-10.png

    10,删除指定列

    用 drop() 函数可删除源数据中的指定列

    users.drop(['age'],axis = 1)
    

    这里的 axis 代表指定要删除的是行还是列,默认为0,0代表的是行,1代表的是列;也可以直接用下面命令:

    users.drop(columns =['age'])
    
    drop_columns.png

    相关文章

      网友评论

          本文标题:Pandas 数据处理(一) —— 几个简单函数掌握!

          本文链接:https://www.haomeiwen.com/subject/jialqktx.html