美文网首页生信
R: 快速统计向量中元素出现的次数

R: 快速统计向量中元素出现的次数

作者: 生信云笔记 | 来源:发表于2020-08-14 19:51 被阅读0次

    前言

      如何用R语言来快速统计向量中每个元素的个数呢?今天我们来分享两个含量函数分别是table、rle,第一个函数用过R的人应该都了解,第二个rle函数就不常见了,可能很多人都不知道。下面我们就展示一下这个函数如何来统计向量中元素的个数。

    • table函数
      首先来展示一下如何用table函数来统计元素个数,例如我们有下面这样的文件,内容如下:
    > head(df)
                           gene InputP           mType
    1  ENSG00000007376.8 RPUSD1  3.698  protein_coding
    2 ENSG00000010256.11 UQCRC1  6.170 retained_intron
    3    ENSG00000010361.14 FUZ  4.147  protein_coding
    4    ENSG00000015475.18 BID  3.408  protein_coding
    5   ENSG00000023191.17 RNH1  3.930  protein_coding
    6    ENSG00000030582.18 GRN  5.407 retained_intron
    

    第三列是基因的类型,我们现在想统计一下每种类型的基因型数,示例代码如下:

    #统计结果直接生成数据框
    > as.data.frame(table(df$mType))
                                    Var1 Freq
    1                             lncRNA   12
    2            nonsense_mediated_decay   18
    3               processed_pseudogene    1
    4               processed_transcript   22
    5                     protein_coding  271
    6                    retained_intron   24
    7                                TEC    1
    8   transcribed_processed_pseudogene    1
    9 transcribed_unprocessed_pseudogene    2
    

    是不是很方便快捷,统计结果直接转化为数据框看起来更清晰明了。

    • rle函数
      该函数也可以用来统计向量中元素的个数,但统计之前先把向量排个序,然后再进行统计,示例代码如下:
    #使用rle函数统计元素个数,结果转化为数据框
    > data.frame(rle(sort(df$mType))[2],rle(sort(df$mType))[1])
                                  values lengths
    1                             lncRNA      12
    2            nonsense_mediated_decay      18
    3               processed_pseudogene       1
    4               processed_transcript      22
    5                     protein_coding     271
    6                    retained_intron      24
    7                                TEC       1
    8   transcribed_processed_pseudogene       1
    9 transcribed_unprocessed_pseudogene       2
    #rle函数返回的结果是一个list
    > str(rle(sort(df$mType)))
    List of 2
     $ lengths: int [1:9] 12 18 1 22 271 24 1 1 2
     $ values : chr [1:9] "lncRNA" "nonsense_mediated_decay" "processed_pseudogene" "processed_transcript" ...
     - attr(*, "class")= chr "rle"
    >
    

    用rle函数来统计元素个数也是相当的方便,但要注意两个细节,该函数统计前需要对向量先排序,返回的结果是list格式。

    最后

      emm,今天就分享到这里,R语言的有好多使用的函数,多了解一点使用起来就会更方便一点。

    相关文章

      网友评论

        本文标题:R: 快速统计向量中元素出现的次数

        本文链接:https://www.haomeiwen.com/subject/wdxtdktx.html