所看这一节标题是 串的模式匹配算法
数据结构C语言版,第四章第三节
目的:求子串位置
首先,最容易想到的就是暴力算法,不废话,直接上代码
int Index(SString S, SString T, int pos){
i = pos; j=1;
while(i <= S[0] && j <= T[0]){
if(S[i] == T[j]) {i++; j++;}
else{i = i-j+2; j=1}//回退指针中-2需要注意
}
if(j > T[0]) return i-T[0];
else return 0;
}
这个算法可以很好的完成他的功能,这个没有问题。时间复杂度最好为 O(n+m),最坏时候则为O(n*m),问题就在这里了,时间复杂度不可能一直都是最好情况,最坏时候的复杂度我们不满意,那好,优化开始。
这个时候KMP算法就出来了。
暴力算法对复杂度影响最大的,是主串的回退,而KMP其优化思路就是,其实我们可以每次出现匹配失败的时候,主串不回退,适当的回退子串,然后继续进行匹配的。
这个功能成立的条件就是我们对于子串足够的了解。假设我们已经非常熟悉子串,这时可以知道,子串是有一定的重复的,当匹配失败的时候,我们可以让子串回退到一个位置,这个位置不一定是起点,但是主串已经满足了子串这一点之前的字符的成功匹配,这个时候,我们就可以不回退主串,基于我们对于子串的了解,继续进行匹配。说多容易晕,看代码。
代码中我们引入一个next数组,它记录了子串匹配失败时回退的位置,如何得到next数组,后续会说
int Index_KMP(SString S, SString T, int pos){
i = pos; j = 1;
while(i <= S[0] && j <= T[0]){
if(j==0 || S[i] == T[j]){i++; j++;}
else{ j = next[j]; }
}
if(j > T[0]) return i-T[0];
else return 0;
}
此算法时间复杂度就稳了,O(m+n),不错,挺满意的。当然大家会说,你还需要生成next数组啊,这也是计算啊,那好,我们来看看这个生成next数组的算法
void get_next(SString T, int next[]){
i=1;next[1] = 0;j=0;
while(i < T[0]){
if(j==0 || T[i]==T[j]){i++;j++;next[i]=j;}
else j = next[j];
}
}
时间复杂度O(m),感觉可以接受的工作量,呆胶布~
然而,KMP没这么简单的,它还能优化,由此,我们需要先看一个特殊情况:
子串‘aaaab’和主串'aaabaaaab'相遇时候,会发生什么?对next数组足够了解的小伙伴一眼就看出来了,你这不得一步步退回到起点么,干嘛不直接回退到起点?
好,那我们就让它能直接回退到起点来优化它。
新的next算法
void get_nextval(SString T, int nextval[]){
i=1; j=0; nextval[1]=0;
while(i < T[0]){
if(j==0 || T[i]==T[j]){
++i;++j;
if(T[i] != T[j]) nextval[i] =j;
else nextval[i] = nextval[j];
}
else j = nextval[j];
}
}
emmm,没啥好说的了,手打好累,,,,
网友评论