美文网首页R
R语言:Purrr包探索

R语言:Purrr包探索

作者: 孟祥良 | 来源:发表于2019-04-22 15:22 被阅读27次

    看统计书,有一道题问n人之中至少有两人生日相同的概率。感觉这道题非常适合用来练习purrr包的基本用法,于是就试了下。

    对于这道题,可以先算出所有人的生日都不相同的概率,然后再用1减去这个概率。当人数为2人时,概率是:

    1 - (365 / 365) * (364 / 365)
    
    ## [1] 0.002739726
    

    当人数为3人时,概率是:

    1 - (365 / 365) * (364 / 365) * (363 / 365)
    
    ## [1] 0.008204166
    

    写成数学公式的话,大概是这样:

    image

    为了方便使用,可以写成函数:

    samebirth <- function(n) {
      
      temp <- 1 - prod(365:(366 - n)) / 365 ^ n 
      
      print(temp)
      
    }
    

    试一下:

    samebirth(2)
    
    ## [1] 0.002739726
    
    samebirth(3)
    
    ## [1] 0.008204166
    

    没有问题。但是要想同时计算2人和3人的概率,就会出现问题:

    samebirth(2:3)
    
    ## Warning in 365:(366 - n): numerical expression has 2 elements: only the
    ## first used
    
    ## [1] 0.002739726 0.997267780
    

    此时就可以利用purrr包中的map函数,把.x参数所代表的数据中的每一个元素映射到.f位置的函数上:

    library(purrr)
    
    map(2:3, samebirth)
    
    ## [1] 0.002739726
    ## [1] 0.008204166
    
    ## [[1]]
    ## [1] 0.002739726
    ## 
    ## [[2]]
    ## [1] 0.008204166
    

    这次同时算出了2人和3人情况下的概率,而且数值是正确的了,但不知道为什么数值都显示了两遍。因为samebirth函数比较短,所以可以直接在map中使用匿名函数。当然,也可以使用apply家族的函数,但map中可以写成公式式匿名函数,进而使代码更简洁:

    map(2:3, ~ 1 - prod(365:(366 - .x)) / 365 ^ .x)
    
    ## [[1]]
    ## [1] 0.002739726
    ## 
    ## [[2]]
    ## [1] 0.008204166
    

    这里的prod函数的作用是累乘,2和3依次被映射到了.x处,然后计算出概率。

    如果要计算更多的人数,比如50,可以将3改为50,但因为map函数默认产生列表,结果输出会很长,这是可以将map函数改为map_dbl,指定输出数值型的结果:

    map_dbl(2:50, ~ 1 - prod(365 : (366 - .x)) / 365 ^ .x)
    
    ##  [1] 0.002739726 0.008204166 0.016355912 0.027135574 0.040462484
    ##  [6] 0.056235703 0.074335292 0.094623834 0.116948178 0.141141378
    ## [11] 0.167024789 0.194410275 0.223102512 0.252901320 0.283604005
    ## [16] 0.315007665 0.346911418 0.379118526 0.411438384 0.443688335
    ## [21] 0.475695308 0.507297234 0.538344258 0.568699704 0.598240820
    ## [26] 0.626859282 0.654461472 0.680968537 0.706316243 0.730454634
    ## [31] 0.753347528 0.774971854 0.795316865 0.814383239 0.832182106
    ## [36] 0.848734008 0.864067821 0.878219664 0.891231810 0.903151611
    ## [41] 0.914030472 0.923922856 0.932885369 0.940975899 0.948252843
    ## [46] 0.954774403 0.960597973 0.965779609 0.970373580
    

    这时任务就完成了,但一开始我并不知道prod函数的存在,所以写的稍微复杂了一些:

    不过在展示最初写法之前,还要介绍下reduce函数。

    reduce函数常用于合并列表中的数据框,如:

    reduce(list(iris, iris, iris), rbind) %>% dim()
    
    ## [1] 450   5
    

    3个本来只有150行iris数据框合并到一起变成了450行。另外,reduce配合*函数使用,就实现了prod函数的功能,如:

    reduce(1:5, `*`)
    
    ## [1] 120
    
    prod(1:5)
    
    ## [1] 120
    

    R中的一些运算符号,如上面用到的*,加上反引号(backtick,键盘esc下面那个符号),就可以像普通函数那样使用,如:

    5 + 6
    
    ## [1] 11
    
    `+`(5, 6)
    
    ## [1] 11
    
    sum(5, 6)
    
    ## [1] 11
    

    最初的代码是这样的:

    map_dbl(2:50, ~ 1 - map(1:.x, ~ (366 - .x) / 365) %>% reduce(`*`))
    
    ##  [1] 0.002739726 0.008204166 0.016355912 0.027135574 0.040462484
    ##  [6] 0.056235703 0.074335292 0.094623834 0.116948178 0.141141378
    ## [11] 0.167024789 0.194410275 0.223102512 0.252901320 0.283604005
    ## [16] 0.315007665 0.346911418 0.379118526 0.411438384 0.443688335
    ## [21] 0.475695308 0.507297234 0.538344258 0.568699704 0.598240820
    ## [26] 0.626859282 0.654461472 0.680968537 0.706316243 0.730454634
    ## [31] 0.753347528 0.774971854 0.795316865 0.814383239 0.832182106
    ## [36] 0.848734008 0.864067821 0.878219664 0.891231810 0.903151611
    ## [41] 0.914030472 0.923922856 0.932885369 0.940975899 0.948252843
    ## [46] 0.954774403 0.960597973 0.965779609 0.970373580
    

    虽然要复杂一些,但也说明map函数是可以嵌套的。

    相关文章

      网友评论

        本文标题:R语言:Purrr包探索

        本文链接:https://www.haomeiwen.com/subject/oigygqtx.html