美文网首页数据结构与算法思想数据结构与算法Java数据结构和算法
算法思想之动态规划(五)——最小编辑距离问题

算法思想之动态规划(五)——最小编辑距离问题

作者: 复旦猿 | 来源:发表于2019-06-01 13:33 被阅读0次

    前言

    今天我们继续讨论经典的动态规划问题之最小编辑距离问题

    找零钱问题

    问题描述

    对于两个字符串A和B,我们需要进行插入、删除和修改操作将A串变为B串,定义c0,c1,c2分别为三种操作的代价,请设计一个高效算法,求出将A串变为B串所需要的最少代价。例如将"abc"转化为"adc",c0=5,c1=3,c2=100,最小代价为8。

    问题分析

    我们先解释下问题描述中为什么最小代价是8。如果插入、删除和修改操作的代价相同,显然,"abc"->"adc"直接将'b'->'d'即可。但是由于多了c0=5,c1=3,c2=100的条件,所以直接进行修改操作其代价为100,显然不是最小代价。最小代价对应的操作应该是使用插入、删除操作代替修改操作——先在'a'与'c'中插入'd',然后删除'b',或者先删除'b',在插入'd'。这样最小代价为8。
    其实,该问题实质上是求解A \to B的最小编辑距离,只不过对每种操作赋予了权值。假设两字符串A和B的长度分别为nm。我们需要构建一个(n+1) \times (m+1)的矩阵dp,代表A[0:i] \to B[0:j]的最小代价为dp[i][j]。可能你会疑问,为什么是(n+1) \times (m+1),而不是n \times m呢? 观察下面的矩阵,你可能会找到答案。我们需要在两字符串前添加空字符串来得到增加、删除操作所对应的代价作为初始值。

    '' 'a' 'd' 'c'
    '' 0 5 10 15
    'a' 3
    'b' 6
    'c' 9

    对于矩阵第0行第0列,代表由'' \to '',显然代价为0,即dp[0][0] = 0;
    对于矩阵第0行第1列,代表由'' \to a,其代价为c_0,即dp[0][1] = c_0 = 5;
    对于矩阵第0行第2列,代表由'' \to ad,其代价为2*c_0,即dp[0][1] = 2 * c_0 = 10;
    依次类推,dp[0][j] = j * c_0,0 \leq j \leq m
    同样的,对于dp[i][0] = i * c_1,0 \leq i \leq n
    那么当 1 \leq i \leq n, 1 \leq j \leq m时,dp[i][j] = ?
    下面,我们分两种情况进行讨论:
    (1) 当 A[i] == B[j]时,可能的操作即最小代价有以下几种情况:

    • 不需要进行任何操作,此时最小代价就是A[0:i-1] \to B[0:j-1]的最小代价,即dp[i-1][j-1]
    • A[0:i] \to B[0:j-1],然后增加B[j],此时最小代价为A[0:i] \to B[0:j-1]的最小代价 + c_0,即dp[i][j-1] + c_0
    • 先将A[0:i-1] \to B[0:j],然后删除A[i],此时最小代价为A[0:i-1] \to B[0:j]的最小代价 + c_1,即dp[i-1][j] + c_1

    此时,dp[i][j] = min\{dp[i-1][j-1], dp[i][j-1] + c0, dp[i-1][j] + c1\};
    (2) 当 A[i] \neq B[j]时,可能的操作即最小代价有以下几种情况:

    • 直接将A[i]替换为B[j],此时最小代价就是A[0:i-1] \to B[0:j-1]的最小代价 + c_2,即dp[i-1][j-1] + c_2
    • A[0:i] \to B[0:j-1],然后增加B[j],此时最小代价为A[0:i] \to B[0:j-1]的最小代价 + c_0,即dp[i][j-1] + c_0
    • 先将A[0:i-1] \to B[0:j],然后删除A[i],此时最小代价为A[0:i-1] \to B[0:j]的最小代价 + c_1,即dp[i-1][j] + c_1

    此时,dp[i][j] = min\{dp[i-1][j-1] + c_2, dp[i][j-1] + c0, dp[i-1][j] + c_1\};
    需要注意的是,c_2 \geq c_0 + c_1时,需要令c_2 = c_0 + c_1,这是因为修改操作可以用增加+删除操作代替,这样的代价比直接进行修改操作的代价要低。问题分析一开始也给出了说明。

    代码实现

    通过问题分析,可以很容易得用代码实现,下面给出算法的java实现。

    public class MinCost {
        public int findMinCost(String A, int n, String B, int m, int c0, int c1, int c2) {
            return core(A, n, B, m, c0, c1, c2);
        }
    
        public int core(String A, int n, String B, int m, int c0, int c1, int c2) {
            if (A.length() == 0 || B.length() == 0) {
                return 0;
            }
            A = " " + A;
            B = " " + B;
            int[][] dp = new int[n + 1][m + 1];
            // 初始化第0行
            dp[0][0] = 0;
            for (int i = 1; i < m + 1; i++) {
                dp[0][i] = c0 * i;
            }
    
            // 初始化第0列
            for (int j = 1; j < n + 1; j++) {
                dp[j][0] = c1 * j;
            }
    
            //update=delete+insert,如果update花费更多就用delete+insert的花费之和替换
            if (c2 >= c0 + c1) {
                c2 = c0 + c1;
            }
    
            for (int i = 1; i < n + 1; i++) {
                for (int j = 1; j < m + 1; j++) {
                    if (A.charAt(i) == B.charAt(j)) {
                        //如果两个字符串中A[i],B[j]的字符都一样的
                        //1.什么都不做就行,0操作
                        int dontChange = dp[i - 1][j - 1];
                        //2.比如由abcd→abcd=abc→abcd+A串删除d
                        int delete = dp[i - 1][j] + c1;
                        //3.比如由abcd→abcd=abcd→abc+B串插入d
                        int insert = dp[i][j - 1] + c0;
                        dp[i][j] = Math.min((Math.min(dontChange, delete)), insert);
                    } else {
                        //1. A abcd → B abce = A abc→B abc + (A abcd → B abce, 替换d为e)
                        int replace = dp[i - 1][j - 1] + c2;
                        //2.比如由A abcd→B abce=A abc→B abce+A串删除d
                        int delete = dp[i - 1][j] + c1;
                        //3.比如由A abcd→B abce=A abcd→B abc+B串插入e
                        int insert = dp[i][j - 1] + c0;
                        dp[i][j] = Math.min((Math.min(replace, delete)), insert);
                    }
                }
            }
            return dp[n][m];
        }
    
        public static void main(String[] args) {
            MinCost minCost = new MinCost();
            String A = "abc";
            int n = A.length();
            String B = "adc";
            int m = B.length();
            int c0 = 3;
            int c1 = 5;
            int c2 = 3;
            int res = minCost.findMinCost(A, n, B, m, c0, c1, c2);
            System.out.println(res);
        }
    }
    

    经典问题

    未来几篇博文,我将继续对经典的动态规划问题进行整理,敬请关注~
    由于本人水平有限,文章难免有欠妥之处,欢迎大家多多批评指正!

    写在最后

    欢迎大家关注我的个人博客复旦猿

    相关文章

      网友评论

        本文标题:算法思想之动态规划(五)——最小编辑距离问题

        本文链接:https://www.haomeiwen.com/subject/xlwotctx.html