美文网首页
正则表达式练习(向前查找、向后查找、贪婪/懒惰型元字符)

正则表达式练习(向前查找、向后查找、贪婪/懒惰型元字符)

作者: 香吉矢 | 来源:发表于2017-09-11 10:09 被阅读0次
    向前查找
    • 向前查找指定了一个必须匹配但不在结果中返回的模式
      • 有些正则表达式文档使用术语“消费”(consume)来表述“匹配和返回文本”的含义。在向前查找里,被匹配的文本不包含在最终返回的匹配结果里,这被称为“不消费”
      • 被匹配文本之后的字符(但不消费它)
    • 向前查找实际就是一个子表达式
    • 一个向前查找模式其实就是一个以?=开头的子表达式,需要匹配的文本跟在=的后面
    向后查找
    • 向后查找,也就是查找出现在被匹配文本之前的字符(但不消费它),向后查找操作符是?<=。
    贪婪型元字符
    • 它们在进行匹配时的行为模式是多多益善而不是适可而止的。它们会尽可能地从一段文本的开头一直匹配到这段文本的末尾,而不是从这段文本的开头匹配到碰到第一个匹配时为止
    1. https://www.baidu.com/wd
      https://music.163.com/#/discover/toplist?id=3778678
      https://translate.google.cn/#en/zh-CN/Th
      http://www.jianshu.com/u/a05e3c276604
    • 要求
      以上为我随便从自己的浏览器中粘贴出来的网页地址,需要将其中的域名过滤出来。
    • 正则表达式

    (?<=//).*?(?=/)

    • 分析
      1). 首先一步一步分析来看,首先将需要的内容匹配出来,通过分析域名前面有两个斜杠,后边有一个斜杠,则正则表达式如下

      //.*/

      分析1)
      出现上图的匹配结果,这里的要求是匹配到域名后的第一个/就停止匹配,但其尽量向行末匹配,遇到最后一个/才停止匹配;因为为贪婪型元字符,需要用到其懒惰型元字符,即

      2). 用贪婪型模式来匹配,正则表达式如下

      //.*?/

      分析2)

      3). 要求只匹配域名,所以需要将域名前后的斜杠过滤掉,这里就需要用到向后查找和向前查找以及子表达式;正则表达式如下

      (?<=//).*?(?=/)

      分析3)
      用()将“//”选定为一个子表达式,在//前加上?<=的前缀,表示向后查找,即//只匹配但不“消费”:同理后边的/也是一样的,向前查找/,匹配但不消费。

    本文有些内容摘自于
    〔美〕Ben Forta. 《正则表达式必知必会 》(图灵程序设计丛书 71) (Kindle位置1974). 人民邮电出版社. Kindle 版本

    相关文章

      网友评论

          本文标题:正则表达式练习(向前查找、向后查找、贪婪/懒惰型元字符)

          本文链接:https://www.haomeiwen.com/subject/pdnzjxtx.html