美文网首页
2020-08-08--Pandas-08--筛选操作

2020-08-08--Pandas-08--筛选操作

作者: program_white | 来源:发表于2020-08-08 16:14 被阅读0次

    在数据处理过程中,经常会遇到要筛选不同要求的数据,通过 Pandas 可以轻松时间,这一篇我们来看下如何使用 Pandas 来完成数据筛选吧。

    Pandas 中除了支持 Python 和 Numpy 的索引运算符[]和属性运算符.来访问数据之外,还有很多其他的方式来访问数据,我们一起来看看吧。

    import pandas as pd
    import numpy as np
    
    
    index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name")
    
    data = {
        "age": [18, 30, np.nan, 40, np.nan, 30],
        "city": ["Bei Jing ", "Shang Hai ", "Guang Zhou", "Shen Zhen", np.nan, " "],
        "sex": [None, "male", "female", "male", np.nan, "unknown"],
        "birth": ["2000-02-10", "1988-10-17", None, "1978-08-08", np.nan, "1988-10-17"]
    }
    
    user_info = pd.DataFrame(data=data, index=index)
    
    # 将出生日期转为时间戳
    user_info["birth"] = pd.to_datetime(user_info.birth)
    print(user_info)
    #         age        city      sex      birth
    # name
    # Tom    18.0   Bei Jing      None 2000-02-10
    # Bob    30.0  Shang Hai      male 1988-10-17
    # Mary    NaN  Guang Zhou   female        NaT
    # James  40.0   Shen Zhen     male 1978-08-08
    # Andy    NaN         NaN      NaN        NaT
    # Alice  30.0              unknown 1988-10-17
    

    字典式get访问数据(行/列/具体数据值)

    我们都知道,Python 中的字典要获取 value 时可以通过 get 方法来获取,对于 Series 和 DataFrame 也一样,他们一样可以通过 get 方法来获取。

    # 获取得到所有年龄相关的这一列的信息,结果为一个 Series
    c = user_info.get("age")
    print(c)
    # name
    # Tom      18.0
    # Bob      30.0
    # Mary      NaN
    # James    40.0
    # Andy      NaN
    # Alice    30.0
    # Name: age, dtype: float64
    
    # 从包含所有的年龄信息的 Series 中得到 Tom 的年龄
    user_info.get("age").get("Tom")
    # 18.0
    

    可以使用get连续获取。

    属性访问

    除了可以通过 get 方法来获取数据之外,还可以通过属性的方式来访问,同样完成上面的功能,来看下如何通过属性访问的方式来实现。

    c = user_info.age
    print(c)
    # name
    # Tom      18.0
    # Bob      30.0
    # Mary      NaN
    # James    40.0
    # Andy      NaN
    # Alice    30.0
    # Name: age, dtype: float64
    
    c = user_info.age.Tom
    print(c)
    # 18.0
    

    这两种属于同一种操作。

    切片访问(一定范围的行/列/数据值)

    在学习 Python 时,会发现列表的切片操作非常地方便,Series 和 DataFrame 同样也有切片操作。

    对于 Series 和DataFrame来说,通过切片可以完成选择指定的行,或者列。

    筛选行

    # 获取年龄的前两行
    c = user_info.age[:2]
    print(c)
    # name
    # Tom    18.0
    # Bob    30.0
    # Name: age, dtype: float64
    
    # 获取所有信息的前两行
    c = user_info[:2]
    print(c)
    #        age        city   sex      birth
    # name
    # Tom   18.0   Bei Jing   None 2000-02-10
    # Bob   30.0  Shang Hai   male 1988-10-17
    
    # 所有信息每两行获取一次数据
    c = user_info[::2]
    print(c)
    #        age        city     sex      birth
    # name                                     
    # Tom   18.0   Bei Jing     None 2000-02-10
    # Mary   NaN  Guang Zhou  female        NaT
    # Andy   NaN         NaN     NaN        NaT
    
    # 对所有信息进行反转
    c= user_info[::-1]
    print(c)
    #         age        city      sex      birth
    # name                                       
    # Alice  30.0              unknown 1988-10-17
    # Andy    NaN         NaN      NaN        NaT
    # James  40.0   Shen Zhen     male 1978-08-08
    # Mary    NaN  Guang Zhou   female        NaT
    # Bob    30.0  Shang Hai      male 1988-10-17
    # Tom    18.0   Bei Jing      None 2000-02-10
    

    筛选列

    只需要将列名传入切片即可完成筛选。

    c = user_info['age']
    print(c)
    print(type(c))         # # <class 'pandas.core.series.Series'>
    # name
    # Tom      18.0
    # Bob      30.0
    # Mary      NaN
    # James    40.0
    # Andy      NaN
    # Alice    30.0
    # Name: age, dtype: float64
    

    筛选多个列,传入一个列表类型,列表中的每一项都是属性名(列名),不是切片操作,是直接获取。

    c = user_info[['age','sex']]
    print(c)
    #         age      sex
    # name
    # Tom    18.0     None
    # Bob    30.0     male
    # Mary    NaN   female
    # James  40.0     male
    # Andy    NaN      NaN
    # Alice  30.0  unknown
    print(type(c))        # <class 'pandas.core.frame.DataFrame'>
    

    通过数字筛选行和列----iloc[,]

    通过切片操作可以完成筛选行或者列,如何同时筛选出行和列呢?

    通过 iloc 即可实现, iloc 支持传入行和列的筛选器,并用 , 隔开。
    格式:user/iloc[行,列],行/列可以是数字或者切片格式。

    先来看下前几种的用法。

    • 在loc[]的[]中,有两个参数,分别为行和列的默认索引(位置)----0,1,2,...
    • 行的格式可以是单行(行号),多行[行号列表,行号切片],三种格式。
    • 列的格式与行的一致。
    # 筛选出第一行数据
    c = user_info.iloc[0]
    print(c)
    # age                       18
    # city               Bei Jing
    # sex                     None
    # birth    2000-02-10 00:00:00
    # Name: Tom, dtype: object
    
    # 筛选出第二行第一列的数据
    c = user_info.iloc[1,0]
    print(c)
    # 30.0
    
    # 筛选出第二行、第一行、第三行对应的第一列的数据
    c = user_info.iloc[[1, 0, 2], 0]
    print(c)
    # name
    # Bob     30.0
    # Tom     18.0
    # Mary     NaN
    # Name: age, dtype: float64
    
    # 筛选出第一行至第三行以及第一列至第二列的数据
    c = user_info.iloc[0:3, 0:2]
    print(c)
    #        age        city
    # name                  
    # Tom   18.0   Bei Jing 
    # Bob   30.0  Shang Hai 
    # Mary   NaN  Guang Zhou
    

    通过名称筛选行和列 ----- loc[name,name]

    虽然通过 iloc 可以实现同时筛选出行和列,但是它接收的是输入,非常不直观。

    通过 loc可实现传入名称来筛选数据,loc 支持传入行和列的筛选器,并用 , 隔开。

    先来看下前几种的用法:

    • 在loc[]的[]中,有两个参数,分别为行和列。
    • 行的格式可以是单行(行名),多行[行列表,行切片],三种格式。
    • 列的格式与行的一致。
    # 筛选出名称为 Tom 的数据一行数据
    c = user_info.loc["Tom"]
    print(c)
    # age                       18
    # city               Bei Jing
    # sex                     None
    # birth    2000-02-10 00:00:00
    # Name: Tom, dtype: object
    
    # 筛选出名称为 Tom 的年龄
    c = user_info.loc["Tom", "age"]
    print(c)
    # 18.0
    
    # 筛选出名称在 ["Bob", "Tom"] 中的两行数据
    c = user_info.loc[["Bob", "Tom"]]
    print(c)
    #        age        city   sex      birth
    # name
    # Bob   30.0  Shang Hai   male 1988-10-17
    # Tom   18.0   Bei Jing   None 2000-02-10
    
    # 筛选出索引名称在 Tom 到 Mary 之间的数据
    c = user_info.loc["Tom": "Mary"]
    print(c)
    #        age        city     sex      birth
    # name
    # Tom   18.0   Bei Jing     None 2000-02-10
    # Bob   30.0  Shang Hai     male 1988-10-17
    # Mary   NaN  Guang Zhou  female        NaT
    
    # 筛选出年龄这一列数据
    c = user_info.loc[:, ["age"]]
    print(c)
    #         age
    # name
    # Tom    18.0
    # Bob    30.0
    # Mary    NaN
    # James  40.0
    # Andy    NaN
    # Alice  30.0
    
    # 筛选出所有 age 到 birth 之间的这几列数据
    c = user_info.loc[:, "age": "birth"]
    print(c)
    #         age        city      sex      birth
    # name
    # Tom    18.0   Bei Jing      None 2000-02-10
    # Bob    30.0  Shang Hai      male 1988-10-17
    # Mary    NaN  Guang Zhou   female        NaT
    # James  40.0   Shen Zhen     male 1978-08-08
    # Andy    NaN         NaN      NaN        NaT
    # Alice  30.0              unknown 1988-10-17
    

    与切片以及iloc不同的是,loc中的切片区间是包含前后的。

    布尔索引

    在之前的学习中,我们学习了花式索引的概念,就是返回一个全是bool值的Series对象作为索引。

    通过布尔操作我们一样可以进行筛选操作,布尔操作时,& 对应 and,| 对应 or,~ 对应 not。

    当有多个布尔表达式时,需要通过小括号来进行分组。

    1. 筛选出age大于20的人
    # 筛选出age大于20的人
    c = user_info.age > 20
    print(c)
    # name
    # Tom      False
    # Bob       True
    # Mary     False
    # James     True
    # Andy     False
    # Alice     True
    # Name: age, dtype: bool
    
    cr = user_info[c]
    print(cr)
    #         age        city      sex      birth
    # name
    # Bob    30.0  Shang Hai      male 1988-10-17
    # James  40.0   Shen Zhen     male 1978-08-08
    # Alice  30.0              unknown 1988-10-17
    
    1. 筛选出年龄在20岁以上,并且性别为男性的数据
    cr = user_info[(user_info.age >20 ) & (user_info.sex == 'male')]
    print(cr)
    #         age        city   sex      birth
    # name                                    
    # Bob    30.0  Shang Hai   male 1988-10-17
    # James  40.0   Shen Zhen  male 1978-08-08
    

    3.筛选出性别不为 unknown 的数据

    user_info[~(user_info.sex == "unknown")]
    

    4.除了切片操作可以实现之外, loc 一样可以实现。

    c = user_info.loc[user_info.age > 20, ["age"]]
    print(c)
    #         age
    # name       
    # Bob    30.0
    # James  40.0
    # Alice  30.0
    

    isin 筛选

    isin是一种bool索引的一种特殊表达式。
    Series 包含了 isin 方法,它能够返回一个布尔向量,用于筛选数据,然后将该表达式作为索引后,获取相应的数据。

    1.筛选出性别属于 male 和 female的数据

    # 筛选出性别属于 male 和 female的数据
    bool = user_info.sex.isin(["male", "female"])
    print(bool)
    # name
    # Tom      False
    # Bob       True
    # Mary      True
    # James     True
    # Andy     False
    # Alice    False
    # Name: sex, dtype: bool
    
    c = user_info[user_info.sex.isin(["male", "female"])]
    print(c)
    #         age        city     sex      birth
    # name
    # Bob    30.0  Shang Hai     male 1988-10-17
    # Mary    NaN  Guang Zhou  female        NaT
    # James  40.0   Shen Zhen    male 1978-08-08
    

    对于索引来说,一样可以使用 isin 方法来筛选。
    2.筛选索引为Bob的数据项

    c = user_info.index.isin(["Bob"])
    print(type(c),c)
    # <class 'numpy.ndarray'> [False  True False False False False]
    
    c = user_info[user_info.index.isin(["Bob"])]
    print(c)
    #        age        city   sex      birth
    # name                                   
    # Bob   30.0  Shang Hai   male 1988-10-17
    

    通过Callable筛选

    loc、iloc、切片操作都支持接收一个 callable 函数,callable必须是带有一个参数(调用Series,DataFrame)的函数,并且返回用于索引的有效输出。

    切片:

    c = user_info[lambda df: df["age"] > 20]
    print(c)
    #         age        city      sex      birth
    # name
    # Bob    30.0  Shang Hai      male 1988-10-17
    # James  40.0   Shen Zhen     male 1978-08-08
    # Alice  30.0              unknown 1988-10-17
    

    loc:

    c = user_info.loc[lambda df: df.age > 20, lambda df: ["age"]]
    print(c)
    #         age
    # name
    # Bob    30.0
    # James  40.0
    # Alice  30.0
    

    iloc:

    c = user_info.iloc[lambda df: [0, 5], lambda df: [0]]
    print(c)
    #         age
    # name
    # Tom    18.0
    # Alice  30.0
    

    同样,支持lambda表达式的话,那么一定支持更复杂的自定义函数。

    相关文章

      网友评论

          本文标题:2020-08-08--Pandas-08--筛选操作

          本文链接:https://www.haomeiwen.com/subject/dmqhdktx.html