美文网首页
诡异的正则(一)

诡异的正则(一)

作者: monvhh | 来源:发表于2018-10-19 13:53 被阅读0次

    曾自己借助阿里云和hexo搭了个站点,现已废弃,过往写的博客暂挪到此处。


    title: 诡异的正则(一)
    date: 2017-04-24 12:43:27
    tags:
    - 技术
    - Javascript
    - 正则
    - TODO


    从几个诡异的问题开始:

    1. reg = /(\w)*/; str = 'abcd';

    str.match(reg)怎么也得不到 ['a','b','c','d']

    结果是["abcd","d"]

    不仅没用,只匹配了一个,而且匹配的还是最后一个 'd'!!

    2. reg = /(\w)*/g

    match 得到的结果是["abcd", ""],就是分组没有匹配成功

    3.

    2用exec执行的结果是同1!
    1用exec执行的结果也是同1。

    4. reg = /\w/g可以实现需求

    5. 复杂一点

    str_c = “.ab.cd.ef’
    reg_c = /(\.(\w)+)*/
    

    由上面推测可知
    str_c.match(reg_c)
    得到的匹配项只有最后一项,无论是第一个分组还是第二个分组
    [".ab.cd.ef", ".ef", "f"]

    对,并没有根据第一个分组的正则匹配到多项再分别执行内部分组的正则。其实想想也是,如果真要这么做,岂不是要二维数组?一维数组的话,对于分析其结果会很麻烦

    6. 针对5的情况把去掉,加g*

    reg_c = /(\.(\w)+)/g

    得到的结果是,根本没返回(\w)分组的匹配!
    [".ab", ".cd", ".ef"]

    7. 6是因为有/g不执行子分组么?

    那么去掉外围的分组括号呢?
    reg_c = /\.(\w)+/g

    依旧同6一样


    差不多了,我就研究了以上这些诡异的情况,得出的结论

    贪婪匹配

    *、+等是贪婪匹配,如果你不分组,比如/\w*/,得到的结果会是'abcd',也就是尽可能的去匹配,匹配最多。
    贪婪匹配在分组这种情况下,由于贪婪匹配的实现逻辑,导致它覆写了上一次获取到的分组,所以得到的是最后一个。
    解释见:
    http://stackoverflow.com/questions/17393683/regex-only-capturing-last-instance-of-capture-group-in-match

    贪婪匹配的具体逻辑见
    http://blog.csdn.net/lxcnn/article/details/4756030

    更多的信息:
    https://blog.mariusschulz.com/2014/06/03/why-using-in-regular-expressions-is-almost-never-what-you-actually-want

    上面这个链接中的一个例子
    字符串:Points: [x1,y1] and [x2,y2]
    正则:\[(.*),(.*)\]
    第一个分组会尽可能的长,导致第二个分组只能获取到一个"y2]"

    我原本以为会得到两个都很长的分组,这样的话这两个分组会有相交的部分。事实是因为贪婪的原因,压缩了第二个分组,由此我可以理解覆盖这个问题。需要更深入的研究。

    关于非贪婪匹配,未必会得到最小的字符串
    JS犀牛书里有个例子
    字符串"aaaab"
    贪婪匹配/a+b/和非贪婪匹配/a+?b/
    得到的结果都是"aaaab"
    关于非贪婪的重复有这么一句话:“这是因为正则表达式的模式匹配总是会寻找字符串中第一个可能匹配的位置。由于该匹配是从字符串的第一个字符开始的,因此在这里不考虑它的子串中更小的匹配”

    全局匹配g

    2和4中,g做了些什么?
    对于g而言,g前面的正则就是一个单一的分组逻辑,意即:根据g前面的正则匹配整个字符串,符合该正则的都加入到其返回的数组中。

    详细参考http://2ality.com/2013/08/regexp-g.html

    以上也回答了
    6和7的问题。
    即:在有g的情况下,无视分组信息

    exec和match的区别

    对于match而言,不带g的匹配是返回一个数组,第一个字符串是匹配的字符串,后面的元素是匹配的分组的数据,如果没有分组,就没有。
    带g的匹配是返回一个数组,每个元素都是匹配的字符串,无视分组;

    对exec而言,是否带g都是返回完整的匹配信息,即包括分组匹配的字符串;
    但是它如何解决我上面说的”二维数组”的问题?

    有一个lastIndex属性,多次调用,依次返回匹配的下一个字符串和分组的完整信息。

    详情见犀牛书《JavaScript权威指南》

    从贪婪匹配到非贪婪匹配

    +*{m,n}都是贪婪匹配,即尽可能匹配更多。
    它们可以通过在后面加一个问号来实现,最少匹配。

    比如+?能匹配1个就1个
    *? 能匹配0个就0个
    {m,n}?能匹配m个就m个

    相关文章

      网友评论

          本文标题:诡异的正则(一)

          本文链接:https://www.haomeiwen.com/subject/arvyzftx.html