美文网首页
字符串相似度(编辑距离算法)

字符串相似度(编辑距离算法)

作者: errorrrr | 来源:发表于2018-05-21 15:51 被阅读0次

    编辑距离(Edit Distance),最先是由俄国科学家Vladimir Levenshtein在1965年发明,用他的名字命名,又称Levenshtein距离。是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个替换成另一个字符,插入一个字符,删除一个字符。


    假设我们有两个字符串"syk"和"syko"。

    1.将两个字符串分别写到行和列中,第一行和第一列的值从0开始增长。

    s y k
    0 1 2 3
    s 1
    y 2
    k 3
    o 4

    2.A出得值取决于:左边的值(1)、上边的值(1)、左上角的值(0)。上面的值和左面的值都要求加1,这样得到1+1=2,1+1=2。A处由于是两个s相同,左上角的值加0.这样得到0+0=0。所以A处取他们里面最小的0.

    s y k
    0 1 2 3
    s 1 A
    y 2
    k 3
    o 4

    3.同理,B出得值取决于:左边的值(0)、上边的值(2)、左上角的值(1)。上面的值和左面的值都要求加1,这样得到2+1=3, 0+1=1。 B处由于是t和s不相同,左上角的值加1.这样得到1+1=2。所以B处取他们里面最小的1.

    s y k
    0 1 2 3
    s 1 0 B
    y 2
    k 3
    o 4

    4.依次生成矩阵

    s y k
    0 1 2 3
    s 1 0 1 2
    y 2 1 0 1
    k 3 2 2 0
    o 4 3 3 1

    5.最后得到他们的距离=1,根据相似度计算公式:
    (1-ld/(double)Math.max(syk.length(), syko.length()))
    ld指的是最小编辑距离,就是矩阵最右下角最后求出的值。
    所有最后的相似度值为1-1/4 = 0.75


    局限性

    由于需要利用矩阵,故空间复杂度为O(MN)。这个在两个字符串都比较短小的情况下,能获得不错的性能。不过,如果字符串比较长的情况下,就需要极大的空间存放矩阵。例如:两个字符串都是20000字符,则LD矩阵的大小为:20000 X 20000 X 2=800000000Byte=800MB。

    java代码

    public static double levenshtein(String str1, String str2) {
            //计算两个字符串的长度。
            int len1 = str1.length();
            int len2 = str2.length();
            //建立上面说的数组,比字符长度大一个空间
            int[][] dif = new int[len1 + 1][len2 + 1];
            //赋初值。
            for (int a = 0; a <= len1; a++) {
                dif[a][0] = a;
            }
            for (int a = 0; a <= len2; a++) {
                dif[0][a] = a;
            }
            //计算两个字符是否一样,计算左上的值
            int temp;
            for (int i = 1; i <= len1; i++) {
                for (int j = 1; j <= len2; j++) {
                    if (str1.charAt(i - 1) == str2.charAt(j - 1)) {
                        temp = 0;
                    } else {
                        temp = 1;
                    }
                    //取三个值中最小的
                    dif[i][j] = min(dif[i - 1][j - 1] + temp, dif[i][j - 1] + 1,
                            dif[i - 1][j] + 1);
                }
            }
            System.out.println("字符串\"" + str1 + "\"与\"" + str2 + "\"的比较");
            //取数组右下角的值,同样不同位置代表不同字符串的比较
            System.out.println("差异步骤:" + dif[len1][len2]);
            //计算相似度
            float similarity = 1 - (float) dif[len1][len2] / Math.max(str1.length(), str2.length());
            System.out.println("相似度:" + similarity);
            return similarity;
        }
    
        //得到最小值
        private static int min(int... is) {
            int min = Integer.MAX_VALUE;
            for (int i : is) {
                if (min > i) {
                    min = i;
                }
            }
            return min;
        }

    相关文章

      网友评论

          本文标题:字符串相似度(编辑距离算法)

          本文链接:https://www.haomeiwen.com/subject/goofjftx.html