12.管道

作者: denghb001 | 来源:发表于2022-01-11 09:14 被阅读0次

12.管道
二建倒计时33天
工业管道工程施工程序
LeetCode 12. Integer to Roman
4.14曹全隶书练习解读12
管道基础
Linux 进程间通信
隧道安全逃生管道最新成果
Linux-C-day-2-进程通过--管道通信
Redis管道技术的使用

1 简介

管道能够清晰的表达多步操作过程。那么管道到底是如何工作的呢？有哪些方法可以替代管道呢？在什么情况下不能使用管道呢？接下来我们将一步步讨论。

1.1 加载包

管道符：%>%是来自Stefan Milton Bache的magrittr包。tidyverse 中的包%>%会自动加载，因此我们不需要加载 magrittr。为了突出管道来源的包，我们先加载它。

library(magrittr)

2 管道替代方案

管道的目的是帮助您以更易于阅读和理解编写的代码。为了了解管道为何如此有用，通过编写多种相同代码来比较。下面来看一个关于一只名叫 Foo Foo 的小兔子的故事：

Little bunny Foo Foo
Went hopping through the forest
Scooping up the field mice
And bopping them on the head

这是一首英语流行儿童诗。

我们将首先定义一个对象来代表小兔子 Foo Foo：

foo_foo <- little_bunny()

我们将为每个关键动作使用一个函数:hop()、scoop()和bop()。使用这个对象和这些动做，我们可以(至少)有四种方式在代码中复述这个故事:

将每个中间步骤保存为一个新对象。
多次覆盖原始对象。
编写函数。
使用管道。

我们将研究每种方法，展示代码优缺点。

2.1 中间步骤

最简单的方法是将每个步骤保存为一个新对象：

foo_foo_1 <- hop(foo_foo, through = forest)
foo_foo_2 <- scoop(foo_foo_1, up = field_mice)
foo_foo_3 <- bop(foo_foo_2, on = head)

这种方法的的主要缺点是你必须为每个中间元素命名。

实际的数据管道操作，我们在其中添加了一个新列ggplot2::diamonds：

diamonds <- ggplot2::diamonds
diamonds2 <- diamonds %>% 
  dplyr::mutate(price_per_carat = price / carat)

pryr::object_size(diamonds)
#> Registered S3 method overwritten by 'pryr':
#>   method      from
#>   print.bytes Rcpp
#> 3.46 MB
pryr::object_size(diamonds2)
#> 3.89 MB
pryr::object_size(diamonds, diamonds2)
#> 3.89 MB

pryr::object_size()给出其所有参数占用的内存。然而一看结果觉得不可思议：

diamonds 占用 3.46 MB，
diamonds2 占用 3.89 MB，
diamonds和diamonds2一起占用 3.89 MB！

这是怎么回事呢？diamonds2与diamonds有 10 列：没有必要复制所有数据，所以两个数据框拥有共同的变量。如果修改其中一个变量，这个变量会被复制。在下面例子中，修改了diamonds$carat. 这意味着carat变量不能再在两个数据帧之间共享，必须进行复制。每个数据帧的大小不变，但集体大小增加：

diamonds$carat[1] <- NA
pryr::object_size(diamonds)
#> 3.46 MB
pryr::object_size(diamonds2)
#> 3.89 MB
pryr::object_size(diamonds, diamonds2)
#> 4.32 MB

2.2 覆盖对象

我们可以直接覆盖原始对象，而需要在每一步都创建中间对象：

foo_foo <- hop(foo_foo, through = forest)
foo_foo <- scoop(foo_foo, up = field_mice)
foo_foo <- bop(foo_foo, on = head)

这是更少的打字（和更少的思考），所以你不太可能犯错误。但是，有两个问题：

不方便调试：如果你某一步出现了错误，你需要从头开始重新运行。
对象名重复使用（我们已经写了foo_foo六次！）掩盖了每一行的变化。

2.3 构造函数

直接合并函数调用：

bop(
  scoop(
    hop(foo_foo, through = forest),
    up = field_mice
  ), 
  on = head
)

这里的缺点是你必须从里到外，从右到左阅读，代码阅读起来困难。

2.4 使用管道

最后，我们可以使用管道：

foo_foo %>%
  hop(through = forest) %>%
  scoop(up = field_mice) %>%
  bop(on = head)

这是我最喜欢的形式，因为它侧重于每一步操作，可以直接阅读这一系列的函数组合，就像它是一组命令式操作。Foo Foo ，hop，scoop，最后是bops。

管道通过执行“词法转换”来工作：在实际运行时，magrittr将管道中的代码重组为一种形式，这种形式通过覆盖一个中间对象来工作。当你运行一个像上面这样的管道时，magrittr会这样做：

my_pipe <- function(.) {
  . <- hop(., through = forest)
  . <- scoop(., up = field_mice)
  bop(., on = head)
}
my_pipe(foo_foo)

这意味着管道不适用于两类函数：

使用当前环境的函数。例如，assign() 在当前环境中创建一个具有给定名称的新变量：
```
assign("x", 10)
x
#> [1] 10

"x" %>% assign(100)
x
#> [1] 10
```
对管道使用 assign 不起作用，因为它将管道分配给由%>%使用的临时环境。如果您确实想对管道使用assign，则必须明确说明环境：
```
env <- environment()
"x" %>% assign(100, envir = env)
x
#> [1] 100
```

get()和load()函数也存在这样的问题。

使用惰性求值的函数。在 R 中，函数参数只在函数使用时计算，而不是在调用函数之前。管道依次计算每个元素，因此您不能依赖此行为。

在使用tryCatch()是也会出现问题，它可以抓取捕获和处理错误：
```
tryCatch(stop("!"), error = function(e) "An error")
#> [1] "An error"

stop("!") %>% 
  tryCatch(error = function(e) "An error")
#> Error in eval(lhs, parent, parent): !
```

具有这种行为的函数类相对广泛，包括基R中的try()、suppressMessages()和suppressWarnings()。

3 何时不使用管道

管道是一个强大的工具，但它不是你可以使用的唯一工具，也不能解决所有问题！管道对于重写相当短的线性操作序列最有用。在以下情况下建议使用另一种工具：

你的管道比（比如说）十步长。在这种情况下，创建具有有意义名称的中间对象。这将使调试更容易，因为您可以更轻松地检查中间结果，并且更容易理解代码，因为变量名称可以帮助传达意图。
有多个输入或输出。如果没有变换一个主要对象，而是将两个或多个对象组合在一起，则不要使用管道。
考虑具有复杂依赖结构的有向图。管道基本上是线性的，表达与它们的复杂关系通常会产生令人困惑的代码。

18.4 magrittr 的其他工具

magrittr 包中的其他一些有用工具有哪些呢？

当使用更复杂的管道时，有时调用一个函数来处理它的副作用是很有用的。也许您想打印出当前对象，或绘制它，或将其保存到磁盘。很多时候，这样的函数不返回任何东西，有效地终止了管道。

为了解决这个问题，可以使用“tee”管道。%T>%与%>%类似，不同的是%T>%返回左边而不是右边。它被称为“tee”，因为它就像一个字面上的t形管。

    rnorm(100) %>%
      matrix(ncol = 2) %>%
      plot() %>%
      str()
    #>  NULL

    rnorm(100) %>%
      matrix(ncol = 2) %T>%
      plot() %>%
      str()
    #>  num [1:50, 1:2] -0.387 -0.785 -1.057 -0.796 -1.756 ...

image.png

如果你使用的函数没有基于数据帧的API(例如，你传递给它们单独的向量，而不是一个数据帧和要在该数据帧上下文中计算的表达式)，你可能会发现%$%很有用。它“展开”数据帧中的变量，可以直接引用它们。这在处理以Base R的许多函数时非常有用:
```
mtcars %$%
  cor(disp, mpg)
#> [1] -0.8475514
```
对于赋值，magrittr提供了%<>%操作符，它允许你替换如下代码:
```
mtcars <- mtcars %>% 
  transform(cyl = cyl * 2)
```
和
```
mtcars %<>% transform(cyl = cyl * 2)
```
我不喜欢这个运算符，因为我认为赋值是一种特殊的操作，它在发生时应该总是很清楚。在我看来，一点点重复（即重复两次对象的名称）是可以的，因为可以使分配更加明确。

12.管道
1 简介管道能够清晰的表达多步操作过程。那么管道到底是如何工作的呢？有哪些方法可以替代管道呢？在什么情况下不能使...
二建倒计时33天
12.建筑管道都有哪些试验：压力试验，灌水试验，通球试验，通水试验，消防栓试射试验。建筑管道常用连接方法：焊接连...
工业管道工程施工程序
管道分类与分级工业管道按压力分级管道的组成管道由管道组成件和管道支承件组成管道组件管道组成件是用于连接或装...
LeetCode 12. Integer to Roman
12. Integer to Roman
4.14曹全隶书练习解读12
12.土字旁
管道基础
##管道基础 #通信分类：只写单工管道、只读单工管道、半双工管道（单向读写）、全双工管道（两个半双工管道拼接）类...
Linux 进程间通信
进程间通信一进程间通信 -- 管道 mkfifo test 创建管道文件匿名管道和命名管道：匿名管道：匿名管...
隧道安全逃生管道最新成果
新型高分子隧道安全逃生管道分别有高分子逃生管道、新型隧道逃生管道、轻型逃生管道、悬挂式隧道逃生管道、防腐逃生管道、...
Linux-C-day-2-进程通过--管道通信
管道通信进程间管道通信方式可以通过man 7 pipe来查看；匿名管道单工管道打开管道：使用popen()...
Redis管道技术的使用
目录 Redis 管道技术 SpringDataRedis 使用管道 Redis 管道的性能测试使用管道技术的注...