美文网首页
Biostar handbook学习笔记(五)|对正则表达式和K

Biostar handbook学习笔记(五)|对正则表达式和K

作者: 简书蚕账号 | 来源:发表于2017-11-26 23:15 被阅读25次

    什么是正则表达式

    正则表达式就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,用来表达对字符串的一种过滤逻辑。

    通过正则表达式可以达到如下的目的:

    1. 给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”);
    2. 可以通过正则表达式,从字符串中获取我们想要的特定部分。

    匹配任意字符:
    .用来匹配一个任意字符,例如:

    匹配特殊字符:
    .在正则表达式中含有特殊的意义,是一个特殊的字符。\也是特殊字符,可以对特殊字符起到转义作用。如果你想匹配的是一个真正的" . "字符,需要在.前面加上\对字符进行转义。所以,.表示真正的" . "字符。

    使用字符集合
    上面说到.能匹配一个任意字符,但是如果我想匹配几个特定字符怎么办?匹配一组特定的字符可以使用[和]元字符。
    正则表达式:c[ab]t

    使用字符组区间:
    在上面的例子中,假如我想匹配cet怎么办,在[]里面多加一个吗?那如果我想匹配任意小写字母呢,往里面写几十个吗?虽然是可以的,但是太长了。这里我们可以用到[a-z]:
    正则表达式:c[a-z]t

    匹配零个或者更多字符
    如果希望匹配零个或更多字符的时候,可以使用元字符。
    正则表达式:ca
    t

    匹配零个或者一个字符
    ?匹配零个或者一个字符。所以,?非常适合于在文本中匹配一个可选的字符。
    正则表达式:ca?t

    使用匹配次数
    正则表达式允许指定匹配的次数。次数可以在“ { ”和“ } ”之间指定。
    注意:{和}也是元字符,在使用字面含义的时候需要转义。

    K-Mers

    k-mer指的是一个字符串中所有长度为k的子字符串的集合。

    使用jellyfish统计k-mers, 软件安装及使用可网上查询。

    相关文章

      网友评论

          本文标题:Biostar handbook学习笔记(五)|对正则表达式和K

          本文链接:https://www.haomeiwen.com/subject/msglbxtx.html