《利用Python进行数据分析》 12.3方法链技术

作者: CCC考研 | 来源:发表于2018-12-23 09:05 被阅读71次

第十二章高阶pandas

12.3 方法链技术

在向数据集应用一系列变换时，你可能会发现自己创建了许多临时变量，而这些变量在分析中从未使用过。例如，考虑以下例子：

df = load_data()
df2 = df[df['col2'] < 0]
df2['col1_demeaned'] = df2['col1'] - df2['col1'].mean()
result = df2.groupby('key').col1_demeaned.std()

尽管我们在这里并未使用真实数据，但是这个例子体现了一些新的方法。首先， DataFrame.assign方法是对df[k] = v的赋值方式的一种功能替代。它返回的是一个按指定修改的新的DataFrame，而不是在原对象上进行修改。因此，下面这些表述是等价的：

# 常见的非函数方式
df2 = df.copy()
df2['k'] = v
# 函数赋值的方式
df2 = df.assign(k=v)

原位赋值可能比使用assign更为快速，但assign可以实现更方便的方法链：

result = (df2.assign(col1_demeaned=df2.col1 - df2.col2.mean())
          .groupby('key')
          .col1_demeaned.std())

我使用外部的小括号来使添加换行符更方便。
在做方法链时要牢记你可能会需要引用临时对象。在之前的例子中，我们无法引用load_data的结果，除非它被赋值给临时变量df。为了处理这种情况，assign和很多其他的pandas函数接受函数型的参数，这种参数也被称为可调用参数。
为了展示操作中的可调用对象，考虑下面这段之前讲过的代码段：

df = load_data()
df2 = df[df['col2'] < 0]

上面的代码可以改写为：

df = (load_data()
[lambda x: x['col2'] < 0])

这里，load_data的结果没有复制给一个变量，因此传递进[]的函数将会被绑定到方法链那一阶段的对象上。
之后，我们可以继续将整个序列写作一个单链表达式：

result = (load_data()
          [lambda x: x.col2 < 0]
          .assign(col1_demeaned=lambda x: x.col1 - x.col1.mean())
          .groupby('key')
          .col1_demeaned.std())

无论你是否倾向于按这种风格写代码都是偏好问题，但将表达式分解为多个步骤可能会使代码更具可读性。

12.3.1 pipe方法

使用内建的pandas函数和我们刚才看到的用可调用参数进行方法链接的方式，你可以完成很多工作。然而，有时你需要使用自定义的函数或来自第三方库的函数。这就是pipe（管道）方法出现的原因。
考虑下面一个函数调用序列：

a = f(df, arg1=v1)
b = g(a, v2, arg3=v3)
c = h(b, arg4=v4)

在使用接受并返回Series或DataFrame对象的函数时，你可以调用pipe方法重写代码：

result = (df.pipe(f, arg1=v1)
          .pipe(g, v2, arg3=v3)
          .pipe(h, arg4=v4))

表达式f(df)和df.pipe(f)是等价的，但是pipe使得链式调用更为方便。
将操作的序列泛化成可复用的函数是pipe方法的一个潜在用途。作为示例，让我们考虑从一列中减去分组平均值：

g = df.groupby(['key1', 'key2'])
df['col1'] = df['col1'] - g.transform('mean')

假设你想要对多个列去除均值并方便地改变分组键。此外，你可能想要将转换在方法链中执行。下面是一个示例实现：

def group_demean(df, by, cols):
    result = df.copy()
    g = df.groupby(by)
    for c in cols:
        result[c] = df[c] - g[c].transform('mean')
    return result

之后可以写如下代码：

result = (df[df.col1 < 0]
          .pipe(group_demean, ['key1', 'key2'], ['col1']))

网友评论

《利用Python进行数据分析》第二版

本文标题：《利用Python进行数据分析》 12.3方法链技术

本文链接：https://www.haomeiwen.com/subject/ihfdkqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

《利用Python进行数据分析》 12.3方法链技术

第十二章高阶pandas

12.3 方法链技术

12.3.1 pipe方法

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

《利用Python进行数据分析》第二版

《利用Python进行数据分析》 12.3方法链技术

第十二章 高阶pandas

12.3 方法链技术

12.3.1 pipe方法

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

《利用Python进行数据分析》 第二版

第十二章高阶pandas

《利用Python进行数据分析》第二版