-
重点: KMP算法的重点在txt字符串的指针不停往后跳+1,而pattern指针可以回溯。我们希望而当出现坏字符的时候,txt指针不回溯,pattern指针往前回溯距离最短,耗时最低。
image.png -
问题来了,如何使txt指针i稳定前进,pattern指针j跳跃回溯最少?j回溯最少即pattern往后移动最多几个格子不会出现遗漏case?涉及到了字符串的公共最长前后缀。使用该前后缀,即可快速知道pattern整体后移多少,j跳跃多少。如上图所示,pattern后移2格是下一步最优解。为何?因为此时bcb重合。若只移动一格则不匹配。而匹配这个条件就等价于匹配的子串是最长公共前后缀bcb。因此最多移动2格。有没有可能遗漏?比如移动一格就匹配了?移动一格若匹配则说明子串是公共前后缀,此时才是真正的最长公共前后缀,与假设的移动2格最长不符。那能不能移动更多?不能,那样会有遗漏case。因此移动2格是最优解。
- 即j移动到bcb后面一格。而若该步发现还是txt[i] != pattern[j],那么需要pattern继续后移动,即j继续往前回溯。即需要找到当前子串的第二长的公共前后缀。而第二长的公共前后缀就是最长公共前后缀本身的最长公共前后缀,
- 这里我们来证明这一定理:假设pattern的最长公共前后缀是x,那么pattern的第二长公共前后缀y一定是x的最长公共前后缀。根据这一推论可轻松推广到第N长的情况。这是kmp算法非常重要的一个定理,没有它KMP就失去了高效性。通过这个定理就可以非常快地回溯找到字符串的第N长公共前缀。证明如下图所示:
若j回溯到一个位置,坏字符匹配上了,那j++,i++继续循环。这是我们想看到的情况,即匹配的最优解,j只回溯了几次,i就继续开始动了,且j也无需回溯到头。且我们的证明也保证了无遗漏case。
若j回溯到头,还是没匹配上,那就i++,从j=0开始重新匹配了。尽管和暴力看似一样,但是实际这一步,i直接跳过了之前匹配上的子串长度,且j回溯的非常快。
伪代码
- 一个for循环体内:
- 若txt[i] == pattern[j] ,则i++,j++,若j==len(pattern)则说明找到了,否则进入下一个循环体。
- 若txt[i] != pattern[j] pattern指针j跳跃到子串最长公共前后缀的前缀后一个位置。而txt指针i不变,再次进行比较,若不同,则j继续回溯到当前子串(当前子串=上一个子串的最长公共前后缀)的最长公共子串(=上一个子串的第二长最长公共后缀)的前缀位置+1……如此回溯直到找到txt[i]==pattern[j]或没找到。找到则i++,j++,否则j移动到0,只有i++。之后进入下一个循环体。
求pattern的最长公共前后缀
外层循环是O(N),那么我们希望里层的循环是常数时间复杂度,即需要事先对pattern构建一个next数组,next[i]代表了前i+1个字符串中最长公共前后缀的前缀末位的index。如下图所示,next[4]=2即代表bcbcb的最长公共前后缀的前缀末位index=2,即长度=3=bcb。
image.png由于next数组的构建只与pattern有关,因此可以提前构建一次,从而应对各个txt。
我们希望构建的时间复杂度是O(M)。构建next的过程其实就是对next的每个前缀子串计算最长快乐前缀位置的过程。即leetcode另一题:https://leetcode-cn.com/problems/longest-happy-prefix/solution/ni-zhen-de-li-jie-kmpma-jiao-ni-xun-su-zhang-wo-bi/
而我们这里构建的next数组就是这一题的增强版。这一题哪怕暴力计算一个字符串的最长公共前后缀,时间复杂度也是线性的。但是计算next数组就不是了,因此不能暴力求解。
next[0]=-1表示无公共的。之后就是一个dp问题。即知道了next[i-1]及其之前的值,推算当前的,而非暴力遍历。
这里我们可以证明:next[i]字符串的最长公共前后缀-1位(下图中Y绿),是next[i-1]字符串的某个公共前后缀。
因为若新加了一位数,构成了最大公共前缀,那么其前缀-1=后缀-1=原子串的某公共前后缀的后缀。因为一定是原子串的某个公共前后缀。而通过之前的证明可得,一定是其最大公共前后缀的最大公共前后缀的…………某一个。
image.png
因此,求next[i]只需要不停回溯,比较pattern[i]与blue的公共前后缀的前缀后一位是否相等。否的话继续往前回溯。是的话就找到了填入前缀的index。
网友评论