美文网首页基础知识
R语言——字符串处理

R语言——字符串处理

作者: 养猪场小老板 | 来源:发表于2020-03-20 09:48 被阅读0次
    • 1) nchar

    取字符数量的函数
    length与nchar不同,length是取向量的长度

    # nchar表示字符串中的字符的个数
    nchar("abcd")
    [1] 4
    
    • 2) length表示向量中元素的个数

    length("abcd")
    [1] 1
    length(c("hello", "world"))
    [1] 2
    
    • 3)chartr

    字符替换

    chartr(old="a", new="c", x="a123")
    [1] "c123"
    
    chartr(old="a", new="A", x="data")
    [1] "dAtA"
    
    • 4)paste和paste0

    字符串粘合函数
    paste在不指定分割符的情况下,默认分割符是空格
    paste0在不指定分割符的情况下,默认分割符是空

    # 默认以空格隔开
    paste("Hello","world")
    [1] "Hello world"
    
    # 没有空格
    paste0("Hello","world")
    [1] "Helloworld"
    
    # 指定分割符
    paste("abc", "efg", "hijk", sep = "-")
    [1] "abc-efg-hijk"
    
    # 分别对向量的每一个元素进行连接
    paste0("A", 1:6, sep = "")
    [1] "A1" "A2" "A3" "A4" "A5" "A6"
    
    # collapse参数:每一个元素操作之后,再把向量的每一个元素进行连接
    paste0("A", 1:6, sep = "",collapse = "-")
    [1] "A1-A2-A3-A4-A5-A6"
    
    • 5)substr

    字符串截取函数

    substr(x = "hello", start = 1, stop = 2)
    [1] "he"
    
    • 6)strsplit

    字符串的分割函数,可以指定分割符,生成一个list
    
    strsplit("abc", split = "")
    [[1]]
    [1] "a" "b" "c"
    如果要对一个向量使用该函数,需要注意。
    
    • 7)unlist分割向量的每一个元素,并取分割后的第一个元素

    unlist(lapply(X = c("abc", "bcd", "dfafadf"), FUN = function(x) {return(strsplit(x, split = "")[[1]][1])}))
    [1] "a" "b" "d"
    
    • 8)gsub和sub

    字符串替换
    gsub替换匹配到的全部
    sub 替换匹配到的第一个

    # 将b替换为B
    gsub(pattern = "b", replacement = "B", x = "baby")
    [1] "BaBy"
    
    gsub(pattern = "b", replacement = "B", x = c("abcb", "boy", "baby"))
    [1] "aBcB" "Boy"  "BaBy"
    
    • 9) sub只替换第一个b

    sub(pattern = "b", replacement = "B", x = "baby")
    [1] "Baby"
    
    sub(pattern = "b", replacement = "B", x = c("abcb", "baby"))
    [1] "aBcb" "Baby"
    
    • 10) grep和grepl

    字符串匹配
    grep函数返回的是索引值
    grepl函数返回的是逻辑值

    # 返回匹配到的元素的索引
    grep(pattern = "boy", x = c("abcb", "boy", "baby"))
    [1] 2
    
    # 返回逻辑值
    grepl(pattern = "boy", x = c("abcb", "boy", "baby"))
    [1] FALSE  TRUE FALSE
    
    • 11) match

    match:匹配两个向量,返回x中存在的返回索引或TRUE、FALSE
    match函数使用格式有如下两种:

    参数详解

    • x: 向量, 要匹配的值;
    • table: 向量, 被匹配的值;
    • nomatch: 没匹配上的返回值, 必须是整数;
    • incomparables: 指定不能用来匹配的值.

    第一种方便设置参数,返回x中元素在table中的位置

    #match(x, table, nomatch = NA_integer_, incomparables = NULL)
    match(c(1, "TRUE"), c(T, 0, "1"))
    #返回3 1,即1位于表中的3号位,TRUE位于1号位,且T和TRUE可匹配成功
    

    第二种简洁,返回x中每个元素在table中是否存在

    #  x %in% table
    c(1, "TRUE", F) %in% c(T, 0, "1")
    #返回TRUE TRUE FALSE,表示每个元素在table中是否存在
    
    • 12) pmatch

    pmatch函数是一个部分匹配函数, 依次从x里面挑出元素, 对照table进行匹配, 若匹配上则剔除匹配上的值, 不再参与下次匹配, duplicate.ok可设置是否剔除; 对于某一个元素, 匹配一共分成三步:

    如果可以完全匹配, 则认为匹配上了, 返回table中的位置;
    不满足上述条件, 如果是唯一部分匹配, 则返回table中的位置;
    不满足上述条件, 则认为没有值与其匹配上.
    pmatch函数的格式

    pmatch(x, table, nomatch = NA_integer_, duplicates.ok = FALSE)

    • x: 向量, 要匹配的值;
    • table: 向量, 被匹配的值;
    • nomatch: 没匹配上的返回值, 必须是整数;
    • duplicates.ok: table里面的元素是否可以适用多次.
      默认不允许重复使用table中元素,返回位置1 2 3
    pmatch(rep(1, 3), rep(1, 5))
    #允许重复,返回位置1 1 1
    pmatch(rep(1, 3), rep(1, 5), duplicates.ok = TRUE)

    相关文章

      网友评论

        本文标题:R语言——字符串处理

        本文链接:https://www.haomeiwen.com/subject/ctpdyhtx.html