美文网首页
从此对读懂写好正则表达式充满信心

从此对读懂写好正则表达式充满信心

作者: hezhiming | 来源:发表于2016-05-02 13:56 被阅读43次

    为什么一定要掌握

    作为正则表达式,优势有:

    • 简洁
    • 力量强大
    • 文本处理军刀

    同样,劣势明显:

    • 难读
    • 难写
    • 难维护
    • 只在小范围用

    那为什么还要它?原因是:

    • 你绕不过,代码里会遇到它,你需要攻破这一知识点
    • 它总是在撩你
    • 掌握它,收益巨大

    它是什么

    • 文本利器,其他领域没有用
    • 能让你的效率提升的神器
    • 标准混乱,哦不,没有标准,总体以「Perl风格」为标准

    工欲善其事,必先利其器也

    赤手空拳上战场的士兵是不可理喻的
    书籍:

    • <<精通正则表达式>>, 只此一本,从此能上天!(BTW,后面语言相关部分可以只看自己喜爱的语言那里,其他可跳过) 拒绝网上的那些不严谨,废话多的,转述文档的,或者纯粹总结某某书籍的,没用的垃圾教程 什么也比不上自己看经典书籍靠谱!

    匹配工具,必须能

    • 即时高亮搜索
    • 即时高亮匹配
    • 支持多种语言
    • 主流正则标准支持完备

    所以,你需要:

    • 拒绝所谓网页版; 拒绝不能即时的,高亮的(不是针对谁,只是在座的各位都是...)
    • Sublime,它的搜索框勉强满足上面要求,推荐
    • RegexBuddy(Windows版),神器! 有它,足矣!

    我认为「称得上重要的」正则语法

    心法也
    [数量词/范围]

    • *: 任意数量任意字符
    • +: 严格地任意数量任意字符(其实是大于等于1个,但是这样好记忆)
    • ?: 0或1个任意字符
    • .: 一个任意字符(按理来说不归为此类,但是我觉得应该这样)
    • {start,end}: A{1,} A{1,10} A{,10}

    [逻辑]

    • |: 或,只用于元组内
    • ^: 非,只用于字符集内

    [类似集合的东东]

    • []: 字符集. 几点注意:
      • ^的位置,^a-ba^b能理解吗
      • -的位置,a-z-az意思完全不同
    • (): 元组, (A|B|C|D)能理解吗

    [杀器功能]

    • 环视,或者说锚点,本身不匹配任何字符,只标记一个地方

      • 约定的: ^ $
      • 正向肯定: (?=...)
      • 正向否定: (?<=...)
      • 逆向肯定: (?!...)
      • 逆向否定: (?<!...)
      • 以上,只要两个就够了!因为: 否定就是肯定,否定用^符号辅助不就行了? 又丢掉一点点心智负担
    • 元组命名,好用且有用,各家编程语言不同,有的还不支持,下面以Python为例

      • (?P<name>...): 唔...,还挺漂亮的
    • 后向引用, 就是用前面已经匹配的内容,这时正好用到上面元组命名功能,总得知道前面已经匹配的一坨东西是啥吧,以Python为例

      • (?=...)

    [所谓约定俗成的,看起来重要的字符集]

    • 无非是\w,\d这些啦,有了上面的语法,这些东西自己要能在脑海里组装起来,这样记忆起来负担小
    • 几个重要的
      • \w: [a-zA-Z_]
      • \b: ((?<!\w)(?=\w)|(?!\w)(?=\w))

    [其他]
    都是各家语言提供的方言功能了吧,可能,不学也罢

    练习!练习!练习!

    • 与之相关的工具: grep,awk等,各语言的正则库,其中语言正则库最重要,必须通读其文档,才能心中有正气
    • 平时有事没事粘贴东西到Sublime中,搜索/替换(不管是实际需求,还是自己捏造的)
    • 常用的正则,至少看懂.如匹配url,email等

    相关文章

      网友评论

          本文标题:从此对读懂写好正则表达式充满信心

          本文链接:https://www.haomeiwen.com/subject/oddlrttx.html