美文网首页Android知识程序员
【刷题】strStr II - Rabin Karp

【刷题】strStr II - Rabin Karp

作者: 猴子007 | 来源:发表于2017-10-07 08:05 被阅读0次

    原题戳我

    介绍另一种更通用的算法,可以代替KMP以O(n+m)的时间复杂度完成字符串查找问题。

    KMP

    本科一般都学习过KMP算法,它能在O(n+m)的时间内解决字符串查找问题,不赘述,可参考KMP戳我

    很容易理解,KMP已经是效率最高的字符串查找算法。整个算法的重点在next数组的生成上,该过程不是很难理解,实现起来却不太方便,又没什么通用性,特意去记忆的性价比太低。不管在面试还是实际问题中,都不是一个很好的选择。

    Java String类中的indexOf()方法,C++的strstr()函数,使用了O(n*m)的暴力比较;Golang strings包中的Index()方法中使用了下述Rabin-Karp算法,时间复杂度O(n+m),同样没有使用KMP。

    Rabin-Karp

    为了保证O(n+m)的时间复杂度,可以使用更通用的Rabin-Karp算法。

    算法非常简单,总结为三点:

    1. 用hash的比较代替字符串的比较,时间复杂度为O(1)(一般假设hash不碰撞)
    2. 需要提前计算出初始的srcHash和固定的tgtHash,时间复杂度为O(m)
    3. 待比较的新srcStr是渐变的,计算新srcHash的时间复杂度为O(1)

    因此,Rabin-Karp的时间复杂度也是O(n+m)。详细可参考Rabin-Karp戳我

    也就没什么可说的了,上代码:

    public int strStr2(String source, String target) {
        if (source == null || target == null) {
            return -1;
        }
        if (source.length() < target.length()) {
            return -1;
        }
        if (target.length() == 0) {
            return 0;
        }
    
        final int MAGIC_NUM = 31;
        final int MODE = 1000007;
    
        int highestPower = 1;
        for (int i = 0; i < target.length(); i++) {
            highestPower = (highestPower * MAGIC_NUM) % MODE;
        }
    
        // init sourceHash and targetHash
        int sourceHash = 0;
        int targetHash = 0;
        for (int i = 0; i < target.length(); i++) {
            sourceHash = (((sourceHash + source.charAt(i)) % MODE) * MAGIC_NUM) % MODE;
            targetHash = (((targetHash + target.charAt(i)) % MODE) * MAGIC_NUM) % MODE;
        }
    
        // "i + (target.length() - 1) < source.length()" is for limit of "i + j"
        for (int i = 0; i + (target.length() - 1) < source.length(); i++) {
            //update sourceHash
            if (i - 1 >= 0) {
                // for this problem, pre-calculating highestPower is necessary to avoid TLE...T_T
                int minus = (source.charAt(i - 1) * highestPower) % MODE;
                sourceHash = (sourceHash + (MODE - minus)) % MODE;
                sourceHash = (((sourceHash + source.charAt(i + target.length() - 1))  % MODE) * MAGIC_NUM) % MODE;
            }
            //judge
            if (sourceHash == targetHash) {
                for (int j = 0; j < target.length(); j++) {
                    if (source.charAt(i + j) != target.charAt(j)) {
                        return -1;
                    }
                }
                return i;
            }
        }
    
        return -1;
    }
    

    需要注意的是:

    • hash还是可能碰撞,因此,当hash相等时,还是需要扫描一遍确认是否真的相等
    • 我们前面直接认为“hash的计算是O(1)的”,实际上,不是任意一个hash函数都能在常数时间内随着字符串的渐变而更新,别随便选hash函数

    引申

    Rabin-Karp算法专注于O(1)的比较,可以扩展到其他几乎所有渐变状态的比较上面。比如八数码问题,相邻状态只有两个位置不同,是渐变的,便可以使用Rabin-Karp算法将比较时间降到O(1)。同时,算法又极其简单,理解起来完全无障碍,随手就能实现。除了特定情况,我个人建议多使用基于Robin-Karp算法的字符串查找。


    本文链接:[【刷题】strStr II - Rabin Karp](https://monkeysayhi.github.io/2017/08/06/【刷题】strStr-II---Rabin Karp/)
    作者:猴子007
    出处:https://monkeysayhi.github.io
    本文基于 知识共享署名-相同方式共享 4.0 国际许可协议发布,欢迎转载,演绎或用于商业目的,但是必须保留本文的署名及链接。

    相关文章

      网友评论

        本文标题:【刷题】strStr II - Rabin Karp

        本文链接:https://www.haomeiwen.com/subject/cldkyxtx.html