美文网首页
理解正则表达式中的回溯

理解正则表达式中的回溯

作者: flyingjimmy | 来源:发表于2017-11-24 09:34 被阅读0次

前段时间看了《高性能JavaScript》一书,其中一章讲到了正则表达式中的回溯对性能的影响。当时看的时候一知半解,现在利用这篇文章重新学习一遍。

两个量词

这两个量词是理解下面第二个例子的前提。

  • 贪婪量词*,重复零次或多次——匹配尽量多的次数
  • 非贪婪量词*?,又称懒惰量词——匹配零次或多次,但求尽量少匹配

两个例子

/h(ello|appy) hippo/.test("hello there, happy hippo");

此正则表达式匹配“hello hippo”或“happy hippo”。

测试一开始,它要查找一个h,目标字符串的第一个字母恰好就是h,它立刻就被找到了。

接下来,子表达式(ello|appy)提供了两个处理选项(分支)。正则表达式首先选择最左边的选项,检查ello是否匹配字符串的下一个字符,确实匹配。然后正则表达式又匹配了后面的空格。再下一步hippo中的h不能匹配字符串中的下一个字母t。

这时就要回溯了,因为前面遇到过分支,我们要试试别的分支的情况。

另一个分支是appy,显然不能匹配hello,并且已经没有别的分支了。所以正则表达式认为从字符串的第一个字符开始匹配是不能成功的,因此它从第二个字符开始,重新进行查找。

它没有找到h,所以就继续向后找,直到第14 个字母才找到,它匹配happy的那个h。

然后它再次进入分支过程。这次ello未能匹配,然后进行第二次回溯,最终它匹配了整个字符串“happy hippo”。

如果看了上面的文字还不是很清楚,下面这张表或许能更好理解一点。

过程 正则 文本 结果
1 h(ello|appy) hippo hello there, happy hippo 匹配
2 h(ello|appy) hippo hello there, happy hippo 匹配
3 h(ello|appy) hippo hello there, happy hippo 不匹配,回溯
4 h(ello|appy) hippo hello there, happy hippo 不匹配
5 h(ello|appy) hippo hello there, happy hippo 第二个字符不匹配
6 h(ello|appy) hippo hello there, happy hippo 第三个字符不匹配
7-17 ... ... ...
18 h(ello|appy) hippo hello there, happy hippo 匹配
19 h(ello|appy) hippo hello there, happy hippo 不匹配,回溯
20 h(ello|appy) hippo hello there, happy hippo 匹配
21 h(ello|appy) hippo hello there, happy hippo 匹配
22 h(ello|appy) hippo hello there, happy hippo 匹配
23 h(ello|appy) hippo hello there, happy hippo 匹配
24 h(ello|appy) hippo hello there, happy hippo 匹配
25 h(ello|appy) hippo hello there, happy hippo 完全匹配

下面我们再来看看带重复量词回溯的例子。

var str = "<p>Para 1.</p>" +
      "<img src='smiley.jpg'>" +
      "<p>Para 2.</p>" +
      "<div>Div.</div>";

/<p>.*<\/p>/i.test(str);

正则表达式一上来就匹配了字符串开始的三个字母<p>,然后是.*,点号匹配除换行符以外的任意字符,星号也就是贪婪量词,会尽可能多地匹配。因为目标字符串中没有换行符,它将吞噬剩下的全部字符串!

不过正则表达式模板中还有更多内容需要匹配,所以正则表达式尝试匹配<。它在字符串末尾匹配不成功,所以它每次回溯一个字符,继续尝试匹配<,直到它回到</div>标签的<位置。

然后它尝试匹配/(转义反斜杠),匹配成功,然后是p,匹配不成功。

正则表达式继续回溯,重复此过程,直到第二段末尾时它终于匹配了</p>。匹配返回成功,它从第一段头部一直扫描到最后一个的末尾,这可能不是你想要的结果,因为匹配结果包含了</p>和<p>。

下面还是用表格来显示匹配过程:

过程 正则 文本 结果
1 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 匹配
2 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 匹配
3 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 不匹配,回溯
4 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 不匹配,继续回溯
5-7 ... ... ...
8 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 匹配
9 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</ div> 匹配
10 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 不匹配,回溯
11 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div .</div> 不匹配,继续回溯
12-18 ... ... ...
19 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 匹配
20 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 不匹配,回溯
21 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 不匹配,继续回溯
22-23 ... ... ...
24 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 匹配
25 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</ p><div>Div.</div> 匹配
26 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 匹配
27 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 完全匹配

注:上面第2步其实是会经过多次向后查找匹配,直到遇到换行符,因为目标字符串没有换行符,所以会一直匹配到字符串结尾。

如果要匹配单个段落,那么懒惰量词*?就派上用场了。懒惰量词的回溯工作以相反方式进行。当正则表达式推进到.*?时,它首先尝试全部跳过然后继续匹配</p>。最后它找到了第一个</p>。

还是以表格方式来显示匹配过程吧:

过程 正则 文本 结果
1 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 匹配
2 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 尝试匹配0次,不成功
3 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 不匹配
4-8 ... ... ...
9 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 匹配
10 <p>.*</p> <p>Para 1.</ p>text<p>Para 2.</p><div>Div.</ div> 匹配
11 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 匹配
12 <p>.*</p> <p>Para 1.</p> text<p>Para 2.</p><div>Div.</div> 完全匹配

如果目标字符串只有一个段落,你可以看到此正则表达式的贪婪版本和懒惰版本是等价的,但是他们尝试匹配的过程不同。

参考:
http://www.cnblogs.com/aaronjs/archive/2012/06/30/2570805.html
https://zhuanlan.zhihu.com/p/27417442

相关文章

网友评论

      本文标题:理解正则表达式中的回溯

      本文链接:https://www.haomeiwen.com/subject/ltrxbxtx.html