美文网首页
初学正则表达式

初学正则表达式

作者: 小焲 | 来源:发表于2017-08-29 20:53 被阅读0次

    正则表达式是一组由字母和符号组成的特殊文本, 它可以用来从文本中找出满足你想要的格式的句子.

    一个正则表达式是在一个主体字符串中从左到右匹配字符串时的一种规则,它可以从一个基础字符串中根据一定的匹配模式替换文本中的字符串、验证表单、提取字符串等等.

    如上图所示为一个基本的正则表达式。我们先记住这个形式,然后再来学习其表达的含义。

    //在js中中有两种方式表示正则
    var r = /123/;
    // 以/ / 包裹我们的规则
    var reg = new RegExp("123");
    // 用 new方法创建规则 
    

    基本匹配

    正则表达式其实就是在执行搜索时的格式, 它由一些字母和数字组合而成. 例如: 一个正则表达式 the, 它表示一个规则: 由字母t开始,接着是h,再接着是e.

    "The" => The fat cat sat on the mat.

    正则表达式是大小写敏感的, 所以The不会匹配the.

    元字符

    元字符 描述
    . 句号匹配任意单个字符除了换行符.
    [ ] 字符种类. 匹配方括号内的任意字符.
    [^ ] 否定的字符种类. 匹配除了方括号里的任意字符
    * 匹配>=0个重复的在*号之前的字符.
    + 匹配>=1个重复的+号前的字符.
    ? 标记?之前的字符为可选.
    {n,m} 匹配num个中括号之前的字符 (n <= num <= m).
    (xyz) 字符集, 匹配与 xyz 完全相等的字符串.
    或运算符,匹配符号前或后的字符.
    \ 转义字符,用于匹配一些保留的字符 [ ] ( ) { } . * + ? ^ $ \
    ^ 从开始行开始匹配.
    $ 从末端开始匹配.
    1. 点运算符 .
      .是元字符中最简单的例子. .匹配任意单个字符, 但不匹配换行符. 例如, 表达式.ar匹配一个任意字符后面跟着是a和r的字符串.

    ".ar" => The car par ked in the gar age.

    1. 字符集
      字符集也叫做字符类. 方括号用来指定一个字符集. 在方括号中使用连字符来指定字符集的范围. 在方括号中的字符集不关心顺序. 例如, 表达式[Tt]he 匹配 the 和 The.

    "[Tt]he" => The car parked in the garage.

    方括号的句号就表示句号. 表达式 ar[.] 匹配 ar.字符串.

    "ar[.]" => A garage is a good place to park a car.

    1. 否定字符集
      否定字符集[^ ]的作用与字符集[ ]刚好相反, 它表示这个字符集是否定的。

    "[^c]ar" => The car parked in the garage.

    1. 重复次数和{ }
      元字符 +, * or ? 的, 用来指定匹配子模式的次数.
      在正则表达式中 {} 是一个量词, 常用来一个或一组字符可以重复出现的次数.
      例如, 表达式 [0-9]{2,3} 匹配 2~3 位 0~9 的数字.

    "[0-9]{2,3}" => The number was 9.9997 but we rounded it off to 10.0.

    {min,max}表示匹配min~max位字符;
    {min, }省略max表示至少匹配min位字符,无上限;
    {min}省略‘,’只剩一个数字,表示匹配固定min位字符。

    元字符 +号匹配+号之前的字符出现 >=1 次个字符. 等价于{1,}
    例如表达式c.+t 匹配以首字母c开头以t结尾,中间跟着任意个字符的字符串(这里包含空格).

    "c.+t" => The fat cat sat on the mat

    元字符 号匹配 在之前的字符出现大于等于0次. 等价于 {0,}
    例如, 表达式 a* 匹配以0或更多个a开头的字符, 因为有0个这个条件, 其实也就匹配了所有的字符.表达式[a-z]* 匹配一个行中所有以小写字母开头的字符串(这里不包含空格).

    "[a-z]*" => T he car parked in the garage #21.

    元字符 ? 标记在符号前面的字符为可选, 即出现 0 或 1 次. 等价于{0,1}
    例如, 表达式 [T]?he 匹配字符串 he 和 The.

    "[T]?he" => The car is parked in the garage.

    1. (...) 特征标群
      特征标群是一组写在 (...) 中的子模式.即我们将()里的字符串视为一个整体。

    "(12){2,4}"=> 121212121222
    "12{2,4}"=> 121212121222

    1. | 或运算符
      或运算符就表示或, 用作判断条件.
      例如 (T|t)he|car 匹配 (T|t)he 或 car.

    "(T|t)he|car" => The car is parked in the garage.

    1. 锚点
      在正则表达式中, 想要匹配指定开头或结尾的字符串就要使用到锚点. ^ 指定开头, $ 指定结尾.
    • ^ 号
      ^ 用来检查匹配的字符串是否在所匹配字符串的开头.
      例如, ^(T|t)he 匹配以 The 或 the 开头的字符串.

    "(T|t)he" => The car is parked in the garage.
    "^(T|t)he" => The car is parked in the garage.

    • $ 号
      同理于 ^ 号, $ 号用来匹配字符是否是最后一个.
      例如, (at.)$ 匹配以 at. 结尾的字符串.

    "(at.)" => The fat cat. sat. on the mat.
    "(at.)$" => The fat cat. sat. on the mat.

    1. 转码特殊字符
      反斜线 \ 在表达式中用于转码紧跟其后的字符. 用于指定 { } [ ] / \ + * . $ ^ | ? 这些特殊字符. 如果想要匹配这些特殊字符则要在其前面加上反斜线 .
      例如 . 是用来匹配除换行符外的所有字符的. 如果想要匹配句子中的 . 则要写成 . 以下这个例子 .?是选择性匹配.

    "(f|c|m)at.?" => The fat cat sat on the mat.

    简写字符集

    简写 描述
    . 除换行符外的所有字符
    \w 匹配所有字母数字, 等同于 [a-zA-Z0-9_]
    \W 匹配所有非字母数字, 即符号, 等同于: [^\w]
    \d 匹配数字: [0-9]
    \D 匹配非数字: [^\d]
    \s 匹配所有空格字符, 等同于: [\t\n\f\r\p{Z}]
    \S 匹配所有非空格字符: [^\s]
    \b 单词边界:起始,结束,连词符(除了\w 其他的都属于连词符)
    \B 非独立部分:[^\b]
    \f 匹配一个换页符
    \n 匹配一个换行符
    \r 匹配一个回车符
    \t 匹配一个制表符
    \v 匹配一个垂直制表符
    \p 匹配 CR/LF (等同于 \r\n),用来匹配 DOS 行终止符

    前后关联约束(前后预查)

    符号 描述
    ?= 前置约束-存在
    ?! 前置约束-排除
    ?<= 后置约束-存在
    ?<! 后置约束-排除

    前置约束和后置约束都属于非捕获簇(用于匹配不在匹配列表中的格式). 前置约束用于判断所匹配的格式是否在另一个确定的格式之后.

    "(T|t)he(?=\sfat)" => The fat cat sat on the mat. //前置约束-存在
    "(T|t)he(?!\sfat)" => The fat cat sat on the mat. //前置约束-排除
    "(?<=(T|t)he\s)(fat|mat)" => The fat cat sat on the mat.//后置约束-存在
    "(?<!(T|t)he\s)(cat)" => The cat sat on cat.//后置约束-排除

    标志

    标志 描述
    i 忽略大小写.
    g 全局搜索.
    m 多行的: 锚点元字符 ^ $ 工作范围在每行的起始.

    忽略大小写 (Case Insensitive)
    修饰语 i 用于忽略大小写. 例如, 表达式 /The/gi 表示在全局搜索 The, 在后面的 i 将其条件修改为忽略大小写, 则变成搜索 the 和 The, g 表示全局搜索.

    "/The/gi" => The fat cat sat on the mat.

    全局搜索 (Global search)
    修饰符 g 常用语执行一个全局搜索匹配, 即(不仅仅返回第一个匹配的, 而是返回全部). 例如, 表达式 /.(at)/g 表示搜索 任意字符(除了换行) + at, 并返回全部结果.

    "/.(at)/" => The fat cat sat on the mat.
    "/.(at)/g" => The fat cat sat on the mat.

    多行修饰符 (Multiline)
    多行修饰符 m 常用语执行一个多行匹配.
    像之前介绍的 (^,$) 用于检查格式是否是在待检测字符串的开头或结尾. 但我们如果想要它在每行的开头和结尾生效, 我们需要用到多行修饰符 m.
    例如, 表达式 /at(.)?$/gm 表示在待检测字符串每行的末尾搜索 at后跟一个或多个 . 的字符串, 并返回全部结果.

    "/.at(.)?$/g" => The fat
    cat sat
    on the mat.

    "/.at(.)?$/gm" => The fat
    cat sat
    on the mat.

    t贪婪匹配和非贪婪匹配

    当我们对字符串用{max,min}进行匹配时,总是会先进行max匹配。这就是贪婪匹配。

    "/1{4,6}/" => 11111122

    那我们想先匹配min怎么办呢?
    只需在{}后添加?,即

    "/1{4,6}?/" => 11111122

    --

    参考资料:https://github.com/dglxiaoyi/learn-regex

    相关文章

      网友评论

          本文标题:初学正则表达式

          本文链接:https://www.haomeiwen.com/subject/hqaodxtx.html