51.关于模式匹配的一些函数（一）

作者: 心惊梦醒 | 来源:发表于2021-09-03 00:02 被阅读0次

52.关于模式匹配的一些函数（二）
51.关于模式匹配的一些函数（一）
53.关于模式匹配的一些函数（三）
55.关于正则表达式在其他函数中的应用
54.关于模式匹配的一些函数（四）
模式匹配
Scala模式匹配及偏函数
lua高级-正则表达式
Lua解析神器Lpeg
AI编程范式第6章构建软件工具（二）

【上一篇：50.关于正则表达式的基础知识】
【下一篇：52.关于模式匹配的一些函数（二）】

模式匹配和替换相关的函数包含以下几种功能：
1. 确定匹配模式的字符串
2. 找到匹配的位置
3. 提取匹配的内容
4. 用新值替换匹配项
5. 基于匹配拆分字符串

模式匹配示意图

Base R 中的模式匹配函数有：grep, grepl, regexpr, gregexpr, regexec and gregexec，模式替换函数有：sub、gsub。

1. 确定匹配模式的字符串

stringr包中的模式匹配函数的返回值类型一般分为三种：(输入是字向量)
1)返回与输入向量等长的逻辑向量，向量元素匹配到pattern为TRUE，反之为FALSE
2)返回正确匹配到pattern的向量元素的索引
3)返回正确匹配到pattern的向量元素的值
强调，此类函数的返回值都与string本身相关：string本身、string在向量中的索引和逻辑值。
在stringr包中，这三种形式的返回值分别通过三个函数实现：

# 返回逻辑值
str_detect(string, pattern, negate = FALSE)
# 返回正确匹配字符串的索引
str_which(string, pattern, negate = FALSE)
# 返回正确匹配字符串本身
str_subset(string, pattern, negate = FALSE)

string：输入字符向量
pattern：用字符串表示的正则表达式
negate：默认FALSE表示返回匹配上的结果，TRUE表示返回没有匹配上的结果

> fruit <- c("apple", "banana", "pear", "pinapple")
> str_detect(fruit,"apple")
[1]  TRUE FALSE FALSE  TRUE
> str_which(fruit,"apple")
[1] 1 4
> str_subset(fruit,"apple")
[1] "apple"    "pinapple"
### 以下两种取字符串的方法实现的结果与str_subset一致
> fruit[str_detect(fruit,"apple")]
[1] "apple"    "pinapple"
> fruit[str_which(fruit,"apple")]
[1] "apple"    "pinapple"
### str_count函数是str_detect函数的变形，参数更简单
str_count(string, pattern = "")
其返回值是一个与输入向量等长的向量，向量的值为每个向量元素中匹配模式的个数
> str_count(fruit, "apple")
[1] 1 0 0 1

相对应的，base R中的函数及其Usage分别是：

# 返回逻辑值，记忆：grep + logical
grepl(pattern,x)
# 返回正确匹配到pattern的字符串的索引
grep(pattern,x,value=FALSE) 
# 返回正确匹配到pattern的字符串的值
grep(pattern,x,value=TRUE)

记忆：关于两者的比较：
1) str_*类函数只有三个参数，功能比较单一； base R中的函数，参数很多。

grep(pattern, x, ignore.case = FALSE, perl = FALSE, value = FALSE,
     fixed = FALSE, useBytes = FALSE, invert = FALSE)

grepl(pattern, x, ignore.case = FALSE, perl = FALSE,
      fixed = FALSE, useBytes = FALSE)

2) str_*的pattern参数默认用字符串表示的正则表达式，grep*中的pattern参数有多个选择：A)默认同str_*，此时fixed=FALSE；B)直接写正则表达式，但同时需要设置fixed=TRUE。
3) str_的negate参数的作用与grep的invert参数作用相同。str_*函数想实现grep*的B)功能，需要通过fixed函数。如下，四种形式等效。

# 函数的作用是返回match部分在string中的开始位置和结束位置
> test<-"AB$CD"
> str_locate(test,"\\$")
     start end
[1,]     3   3
> str_locate(test,fixed("$"))
     start end
[1,]     3   3
> regexpr("\\$",test,fixed=F)
[1] 3
attr(,"match.length")
[1] 1
attr(,"index.type")
[1] "chars"
attr(,"useBytes")
[1] TRUE
> regexpr("$",test,fixed=T)
[1] 3
attr(,"match.length")
[1] 1
attr(,"index.type")
[1] "chars"
attr(,"useBytes")
[1] TRUE

4) 记忆：str_*的string和pattern参数的顺序是string在前，pattern在后；grep*的正好相反

网友评论

本文标题：51.关于模式匹配的一些函数（一）

本文链接：https://www.haomeiwen.com/subject/qrntwltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

51.关于模式匹配的一些函数（一）

1. 确定匹配模式的字符串

相关的应用和知识

相关文章

52.关于模式匹配的一些函数（二）