部分译自http://blog.stevenlevithan.com/archives/algebra-with-regexes
正则表达式在数学上的应用是弱项。对于一个正则表达式引擎来说,0~9这10个字符是最为特殊的。
必须说明Perl和PCRE是个例外,它们允许在匹配进程中的任何一点插入执行动态代码,这也显示了它们的巨大潜力。Perl可以在正则表达式中插入代码,PCRE可以调用外部函数。总的来说,用正则表达式解决数学问题是永远的隐痛。
然而,最基本的正则表达式也可以榨出更多美味的汁来。它甚至可以匹配素数。下面的例子可能让你更加惊艳:<b>正则表达式能判断线性方程是否有解!</b>
基本正则表达式如下:
^(.*)\1{A−1}(.*)\2{B−1}$
其中A和B为占位符,使用时候用未知数的系数替换。这里会看的很迷糊,最下面再解释。例如17x+12y=51,A和B就被分别替换为17和12。如果我们将51的字符串代入来匹配,第一个子表达式结果会是3,第二个子表达式会是0,表示x=3,y=0,也就是说这个方程有解。如果方程无解,正则表达式就匹配失败;如果方程有多组解,正则表达式会匹配到x最大的情况。
注意,这样只是看起来很酷。其实正则引擎匹配时会发生多次回溯,某些情况下效率相当低……
首先介绍一下如何匹配,还是以17x+12y=51为例。
正则表达式代入A和B:^(.*)\1{16}(.*)\2{11}$
。前半部分(.*)\1{16}表示先匹配一个(.*),即任意个重复字符,假定为“11”,那么然后会重复匹配16次“11”。后半部分同理。
在匹配的时候,我们会先把51转换为一个“11……11”(共51个1)的字符串,然后进行匹配。
我们之所以将A、B减去1是因为我们已经在子表达式中(括号中的部分)匹配了一次模式。
下面说明一下其数学原理:
我们把(.*)看做是(1*),即匹配若干个1。匹配成功的情况为:
1.匹配一个“111”,剩下51-3=48个1。
2.重复16次“111”,共16*3=48。
3.51个1匹配成功。
4.后半部分(.*)\2{11}重复匹配12次空串,(.*)此时为0个1。
也就是说,正则表达式匹配方程是否有解其实是利用了类似穷举的方式。在最开始,正则引擎可能尝试了以17个空串开头、17个“1”开头、17个“11”开头的情况,类似于尝试17*0+12y=51、17*1+12y=51、17*2+12y=51,但都无法得出恰当的y来完成匹配。
假如我想要匹配一个7位数,17x+12y=1700012。其中的一组解为x=100000,y=1,正则引擎要从0个1试验到100000个1开头……它看了这个七位数一眼,一眼就是万年……
网友评论