正则表达式基本使用介绍

作者: zhaolion | 来源:发表于2016-06-02 20:29 被阅读264次

    正则表达式有两种风格:posix和perl风格,最常用是posix风格的。下面记录的均是posix风格

    字符集和类

    1. 通配符,可以匹配除换行符(\\n)之外的任意一个字符

    .at,可以匹配"cat","sat","mat"等,一般这种通配符用于匹配操作系统中的文件名

    1. 限定范围
    1. 如果要限定匹配的范围,可以使用[a-z]at形式,任何包括在方括号中的内容都是一个字符类-匹配字符所属的字符集合
    2. 可以列出一个集合,[aeiou],来匹配所有元音字母
    3. 也可以描述一个范围,正如前面的连字符,也是一个范围集:[a-zA-Z],这个集合代表任何的大小字母
    4. 也可以指明不属于某个集合,[^a-z],用来匹配不在小写字母中的字符

    重复

    如果希望某个字符串或者字符类不止一次出现,可以使用2个特殊字符代替:*+,这两个符号放在表示式后面

    • *表示这个模式可以重复0次或多次
    • +表示这个模式可以重复1次或更多次

    c+at,表示可以匹配"cat","ccat","cccat",但是无法匹配"at"
    c*at,表示可以匹配"cat","ccat","cccat",也可以匹配"at"

    子表达式

    通常,将一个表达式分为几个子表达式非常有用,使用圆括号来实现。

    (very )*large,可以匹配:"large","very large","very very large"

    子表达式计数

    可以在花括号{}中的数字表达式来指定内容允许重复出现的次数。可以指定一个确切的数字,也可以是一个重复次数范围,或是一个开区间的重复范围

    (very){1, 2},可以匹配"very","veryvery"
    (very){3},可以匹配"veryveryvery"
    (very)(1,),可以匹配"very","veryvery","veryveryvery"...

    定位到字符串的开始或末尾

    脱字符号^用于正则表达式的开始,表示子字符串必须出现被搜索字符串的开始处
    字符$,用于正则表达式的末尾,表示子字符串必须出现在字符串的末尾

    ^bob,用于在字符串开始处匹配bob
    com$,用于在字符串末尾处匹配com
    ^[a-z]$,这个将只能匹配a-z之间的字符组成的字符串

    分支

    可以使用正则表达式中一条竖线,来表示一个选择
    com|edu|net,来匹配"com","net","edu"中任意一个

    匹配特殊字符

    如果要匹配那些特殊字符,需要使用转义形式,在要匹配的字符前面加一个反斜杠\\

    特殊字符主要有:

    • \: 转义字符
    • ^: 在字符串开始匹配
    • $: 在字符串末尾匹配
    • .: 匹配除换行符之外的字符(字符串末尾仅代表.
    • |: 选择分支的开始
    • (: 子模式开始
    • ): 子模式结束
    • *: 重复0次或多次
    • +: 重复1次或多次
    • {: 最小/最大量记号开始
    • }: 最小/最大量记号结束
    • ?: 标记一个子模式为可选

    \\,表示匹配反斜杠\
    \\$,表示匹配$

    相关文章

      网友评论

      • 阿群1986:markdown对反斜杠转义字符敏感,请稍作修改
        zhaolion:谢谢你的提醒:smile:

      本文标题:正则表达式基本使用介绍

      本文链接:https://www.haomeiwen.com/subject/rzykdttx.html