美文网首页tcga
R 函数笔记 | grep()函数与R语言中的正则表达式

R 函数笔记 | grep()函数与R语言中的正则表达式

作者: Biosciman | 来源:发表于2019-06-17 15:56 被阅读0次

grep()能对向量中特定条件的元素进行查询,默认return为index。grep()语法与grep()大致相似,但默认return为logical。

grep()

代码如下:

grep(pattern, x, ignore.case = FALSE, perl = FALSE, value = FALSE,
     fixed = FALSE, useBytes = FALSE, invert = FALSE)

grep()函数参数:

参数 功能
pattern 包含正则表达式的字符串
x 寻找匹配的字符向量,或者可以通过字符向量强制转换的对象。支持长向量
ignore.case 如果为FALSE,则模式匹配区分大小写;如果为TRUE,则在匹配期间忽略大小写
perl 如果为TRUE,使用perl匹配的正则表达式
value 如果为FALSE,则返回包含由grep确定的匹配的索引的向量,如果为TRUE,则返回包含匹配元素本身的向量
fixed 如果为TRUE,则pattern是要按原样匹配的字符串
useBytes 如果为TRUE,则匹配是逐字节而不是逐字符完成的
invert 如果为TRUE,则返回不匹配的元素的索引或值

R 语言中的正则表达式

正则表达式符号 含义
^ 匹配一个字符串的开始
$ 匹配一个字符串的结尾
. 匹配除了换行符以外的任一字符
* 匹配所有含有*后的字符
? 匹配所有含有?后的字符
+ 匹配所有含有+后的字符
.* 可以匹配任意字符
| 表示逻辑的或
[^] 表示逻辑的补集
[] 匹配多个字符,如果不使用任何分隔符号,则搜寻这个集合
[-] 匹配一个范围
贪婪和懒惰规则

默认情况下是匹配尽可能多的字符,是为贪婪匹配,比如sub("a.b","",c("aabab","eabbe")),默认匹配最长的a开头b结尾的字串,也就是整个字符串。如果要进行懒惰匹配,也就是匹配最短的字串,只需要在后面加个“?”,比如sub("a.?b","",c("aabab","eabbe")),就会匹配最开始找到的最短的a开头b结尾的字串。

grep()函数实例:

1. ^ 的使用:
Protein <- c('TP53','GMPS','CAD','MCM2','MCM3','MCM4',
             'MCM5','MCM6','MCM7','TGM1','TGM2','TGM3',
             'TGM4','TGM5','TGM6','TGM7','CTPS1','CTPS2',
             'GLS','GLS2','NADSYN1')
Results <- grep('^C', Protein, value = T)
Results
^ 的使用
2. $ 的使用:
Protein <- c('TP53','GMPS','CAD','MCM2','MCM3','MCM4',
             'MCM5','MCM6','MCM7','TGM1','TGM2','TGM3',
             'TGM4','TGM5','TGM6','TGM7','CTPS1','CTPS2',
             'GLS','GLS2','NADSYN1')
Results <- grep('2$', Protein, value = T)
Results
$ 的使用
3. . 的使用:
Protein <- c('TP53','GMPS','CAD','MCM2','MCM3','MCM4',
            'MCM5','MCM6','MCM7','TGM1','TGM2','TGM3',
            'TGM4','TGM5','TGM6','TGM7','CTPS1','CTPS2',
            'GLS','GLS2','NADSYN1')
Results <- grep('MCM.', Protein, value = T)
Results
. 的使用
4. * 的使用:
Protein <- c('TP53','GMPS','CAD','MCM2','MCM3','MCM4',
             'MCM5','MCM6','MCM7','TGM1','TGM2','TGM3',
             'TGM4','TGM5','TGM6','TGM7','CTPS1','CTPS2',
             'GLS','GLS2','NADSYN1','DDB1','DDB2','DAO',
             'DDO','DCLRE1C','DLC1')
Results <- grep('*2', Protein, value = T)
Results
* 的使用
5. ? 的使用:
Protein <- c('TP53','GMPS','CAD','MCM2','MCM3','MCM4',
             'MCM5','MCM6','MCM7','TGM1','TGM2','TGM3',
             'TGM4','TGM5','TGM6','TGM7','CTPS1','CTPS2',
             'GLS','GLS2','NADSYN1','DDB1','DDB2','DAO',
             'DDO','DCLRE1C','DLC1','USP11')
Results <- grep('?D', Protein, value = T)
Results
? 的使用
6. + 的使用:
Protein <- c('TP53','GMPS','CAD','MCM2','MCM3','MCM4',
             'MCM5','MCM6','MCM7','TGM1','TGM2','TGM3',
             'TGM4','TGM5','TGM6','TGM7','CTPS1','CTPS2',
             'GLS','GLS2','NADSYN1','DDB1','DDB2','DAO',
             'DDO','DCLRE1C','DLC1','USP11')
Results <- grep('+D', Protein, value = T)
Results
+ 的使用
7. .* 的使用:
Protein <- c('TP53','GMPS','CAD','MCM2','MCM3','MCM4',
             'MCM5','MCM6','MCM7','TGM1','TGM2','TGM3',
             'TGM4','TGM5','TGM6','TGM7','CTPS1','CTPS2',
             'GLS','GLS2','NADSYN1','DDB1','DDB2','DAO',
             'DDO','DCLRE1C','DLC1','USP11')
Results <- grep('T.*3', Protein, value = T)
Results
.* 的使用
8. | 的使用:
Protein <- c('TP53','GMPS','CAD','MCM2','MCM3','MCM4',
             'MCM5','MCM6','MCM7','TGM1','TGM2','TGM3',
             'TGM4','TGM5','TGM6','TGM7','CTPS1','CTPS2',
             'GLS','GLS2','NADSYN1','DDB1','DDB2','DAO',
             'DDO','DCLRE1C','DLC1','USP11')
Results <- grep('^T|*3', Protein, value = T)
Results
| 的使用
9. [^] 的使用:
Protein <- c('TP53','GMPS','CAD','MCM2','MCM3','MCM4',
             'MCM5','MCM6','MCM7','TGM1','TGM2','TGM3',
             'TGM4','TGM5','TGM6','TGM7','CTPS1','CTPS2',
             'GLS','GLS2','NADSYN1','DDB1','DDB2','DAO',
             'DDO','DCLRE1C','DLC1','USP11')
Results <- grep('[^TP53]', Protein, value = T)
Results
[^] 的使用
10. [] 的使用:
Protein <- c('TP53','GMPS','CAD','MCM2','MCM3','MCM4',
             'MCM5','MCM6','MCM7','TGM1','TGM2','TGM3',
             'TGM4','TGM5','TGM6','TGM7','CTPS1','CTPS2',
             'GLS','GLS2','NADSYN1','DDB1','DDB2','DAO',
             'DDO','DCLRE1C','DLC1','USP11')
Results <- grep('[4,3,9,6]', Protein, value = T)
Results
[] 的使用
11. [-] 的使用:
Protein <- c('TP53','GMPS','CAD','MCM2','MCM3','MCM4',
             'MCM5','MCM6','MCM7','TGM1','TGM2','TGM3',
             'TGM4','TGM5','TGM6','TGM7','CTPS1','CTPS2',
             'GLS','GLS2','NADSYN1','DDB1','DDB2','DAO',
             'DDO','DCLRE1C','DLC1','USP11')
Results <- grep('[1-3]', Protein, value = T)
Results
[-] 的使用

参考资料:

  1. R语言之grep函数和正则通配符查询
  2. R语言_符串处理和grep的用法

相关文章

  • R programming - WEEK4

    参考文献 R语言实例-数据过滤grep正则表达式R 语言中,数据框依据不同列进行排序R语言rank函数详细解析R语...

  • R 函数笔记 | grep()函数与R语言中的正则表达式

    grep()能对向量中特定条件的元素进行查询,默认return为index。grep()语法与grep()大致相似...

  • R四大高效编程神器——apply家族

    本节提要:apply()函数sapply()函数lapply()函数tapply()函数 熟悉R编程的人都知道R语...

  • 左手Python右手R

    R语言函数在Python中的实现: 1、生成等差数列 (1)R语言中seq()函数 seq(from,to,len...

  • R语言的正则表达式

    R语言之字符函数和正则表达式R语言的正则表达式(1)http://jingyan.baidu.com/articl...

  • R 函数学习 - grep()

    grep()能对向量中特定条件的元素进行查询,默认return为index。grep()语法与grep()大致相似...

  • R语言 函数

    函数是一组组合在一起以执行特定任务的语句。 R语言具有大量内置函数,用户可以创建自己的函数。在R语言中,函数是一个...

  • R语言中的switch函数用法

    R语言中的switch与其它语言中的switch有很大区别。 在R中,switch函数的语法形式如下: 其中,ex...

  • Day-6 I want food

    学习安装R包 R语言中R包的安装都是一个语句#install.packages("") 学习dyplr五个函数的使...

  • 2019-07-23

    R语言中的apply函数族 1、lapply函数 lapply函数是一个最基础循环操作函数之一,用来对list、d...

网友评论

    本文标题:R 函数笔记 | grep()函数与R语言中的正则表达式

    本文链接:https://www.haomeiwen.com/subject/vpyofctx.html