美文网首页
【动态规划】字符串编辑距离(Levenshtein距离)

【动态规划】字符串编辑距离(Levenshtein距离)

作者: 接骨木go | 来源:发表于2018-04-05 17:42 被阅读0次

    最近在做项目的过程中需要计算两个字符串之间的编辑距离,所谓编辑距离,就是讲其中一个串变成另一个串需要的做少的操作次数,允许的操作包括:在任意位置添加一个字符、修改一个字符、删除一个字符。例如:

    s1="123456"
    s2="234561"
    

    s2要变成s1,需要在首位添加一个'1',在末尾删除一个'1',共需要两次操作,所以s1和s2的编辑距离为2;

    解决思路

    设dis[i][j]表示s1的下标0到i的子串和s2的下标0到j的子串的编辑距离。
    特殊情况:
    显然dis[0][j]=j,dis[i][0]=i,此时其中一个串为空串,要将其变成另一个串则需要添加相应数量的字符。
    一般情况,考虑三种操作:

    • 在s2相应子串后面添加新字符使其等于s1[i]:则dis[i][j]=dis[i-1][j]+1;
    • 删除s2相应子串的最后一个字符:dis[i][j]=dis[i][j-1]+1;
    • 将s2相应的子串的最后一个字符改成s1相应子串最后一个字符:
      此时要考虑两种情况:
      1、s1[i]=s2[j],此时不需要修改,dis[i][j]=dis[i-1][j-1]。
      2、s1[i]!=s2[j],此时需要一次修改,dis[i][j]=dis[i-1][j-1]+1;

    综上,我们取三种情况中所求的距离最小的哪一个。
    动态规划方程(edit即为为dis):



    其中:


    //参考代码
       public static int Levenshtein_dis(String s1,String s2){
            int dis[][] = new int[s1.length()+1][s2.length()+1];
            dis[0][0]=0;
            for (int i=1;i<=s1.length();++i) dis[i][0]=i;
            for (int j=1;j<=s2.length();++j) dis[0][j]=j;
            for (int i=1;i<=s1.length();++i){
                for (int j=1;j<=s2.length();++j){
                    int cost=1;
                    if (s1.charAt(i-1)==s2.charAt(j-1)) cost=0;
                    int min;
                    if (dis[i-1][j-1]+cost<dis[i][j-1]+1) min=dis[i-1][j-1]+cost;
                    else min=dis[i][j-1]+1;
                    if (min>dis[i-1][j]+1) min=dis[i-1][j]+1;
                    dis[i][j]=min;
                }
            }
            return dis[s1.length()][s2.length()];
        }
    

    相关文章

      网友评论

          本文标题:【动态规划】字符串编辑距离(Levenshtein距离)

          本文链接:https://www.haomeiwen.com/subject/vkrdhftx.html