美文网首页
常用正则表达式

常用正则表达式

作者: 天剑飞心 | 来源:发表于2018-05-19 23:36 被阅读0次

    正则表达式这个东西,看过很多很多,用过的呢,几乎没有用过,就像现在的工作一般,只有真正去做以前没有做过的,去深入了解以前不了解的,才会发现其实这些都很简单;
    正则这个东西,几乎在任何地方都可以用,shell里面、SQL语句里面、xx脚本里面
    最近在做一些脚本语句识别的东西,其实关键的地方都是在用正则在做匹配的
    以python为例:

    import re
    pattern = re"^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$"
    match_result = re.findall(pattern, String)
    

    String为想要去用正则匹配的字符串,match_result会得到匹配的结果,匹配的结果会是一个tuple,里面的元素分别为根据表达式依次匹配到的()内的匹配条件,但是只有整个字符串符合整个正则表达式的匹配后,才会获取到匹配结果
    已上面的表达式为例,可以从左到右拆分为几个部分:

    • "^(https?://)?([\da-z.-]+).([a-z.]{2,6})([/\w .-])/?$": ^表示从字符串起始位置开始匹配
    • "^(https?://)?([\da-z.-]+).([a-z.]{2,6})([/\w .-])/?$": ()表示正则表达式捕获的结果会放入一个分组中,https?代表将会匹配http或者https,//表示匹配https后面紧跟的//字符,因为/在正则里面有特殊含义,所以这里需要使用/来对/进行转义,让/代表/本身,括号后面的?代表匹配这个表达式零次或者多次,因为有的url不会带上协议名称
    • "^(https?://)?([\da-z.-]+).([a-z.]{2,6})([/\w .-])/?$" :第二个括号里面的[\da-z.-]+, \d代表匹配所有数字,也可以用0-9来表示所有数字a-z代表所有小写字母,.代表url里面的.,因为.在正则里面也是有特殊含义,所以也需要用\来进行转义,-代表url中可能出现的短横杠,然后用[]+把他们括起来表示可以匹配这些字符多次,然后再[]+后面紧跟着一个.,就表示实际上这一段匹配的是类似 xxx.xxx. 的一段url,但是捕获的结果是xxx.xxx,因为最后一个.不在括号里面
    • "^(https?://)?([\da-z.-]+).([a-z.]{2,6})([/\w .-])/?$" :之前已经匹配了类似https://xxx.xxx.的字符串,那么就剩最后面的域名了域名应该是com. cn. org. 这种类型的,会有固定的长度,所以这里用了一个长度限定{2,6}限定长度为2到6位
    • "^(https?://)?([\da-z.-]+).([a-z.]{2,6})([/\w .-])/?$" :最后的一段([/\w .-])/?$就是匹配可能在.com域名后面的目录名,\w代表所有字母,$代表匹配字符结尾,与最前面的^相呼应,匹配整个输入的字符串

    相关文章

      网友评论

          本文标题:常用正则表达式

          本文链接:https://www.haomeiwen.com/subject/gqlwdftx.html