美文网首页
【Python爬虫学习】正则表达式

【Python爬虫学习】正则表达式

作者: JielongZ | 来源:发表于2022-04-21 20:05 被阅读0次

    特殊字符

    • ^$*?+{2}{2, }{2,5}|
    • [][^][a-z] .
    • \s \S \w \W
    • `\u4E00-\u9FA5\d
      "k":以k开头;
      "^k.":以k开头匹配任何后续字符n次,.代表匹配任何字符,代表匹配任意多次;
      "^k.9":以k开头匹配任何后续字符n次,但是必须以9作为结尾,美元符号前加字符代表以该字符结尾; "^k.9":以k开头匹配任意字符1次,但是第三个字符必须以9作为结尾;
      ".
      ?(a.?a).":字符串前后匹配任意字符,但是只提取括号中匹配的字符串,问号代表非贪婪匹配,例如"auuuuuuusssawwwww",那么"auuuuuuusssa"就会被提取出来;
      "+":至少出现一次,例如".(a.+a)."提取"asssssaaaaaeiw",则会提取出"aaa"(这里有必要强调一下的就是一般正则匹配在贪婪模式下是从右往左进行匹配);
      []:包含在[]中的一个或者多个字符被称为字符类,字符类在匹配时如果没有指定量词则只会匹配其中的一个,例如提取电话好吗可以写成1[358][0-9]{9},[358]表示匹配3、5、8任意字符,[0-9]{9}表示匹配0-9中任意字符出现9次;
      \s:匹配任意空白字符,等价于 [ \t\n\r\f];
      \S:匹配任意非空字符;
      \w:匹配字母数字及下划线;
      \W:匹配非字母数字及下划线;
      \d:匹配任意数字,等价于 [0-9]

    相关文章

      网友评论

          本文标题:【Python爬虫学习】正则表达式

          本文链接:https://www.haomeiwen.com/subject/ppdwertx.html