Levenshtein distance（编辑距离）

作者: ce0b74704937 | 来源:发表于2018-11-06 14:00 被阅读0次

NLP-2012斯坦福课程第3课基本问题
动态规划 001 - 编辑距离(Levenshtein Dist
Levenshtein distance（编辑距离）
字符串距离
Levenshtein Distance最小编辑距离
编辑距离 (Levenshtein Distance算法)
字符串相似度（编辑距离算法）
图解字符串相似算法
最小编辑距离（Edit Distance）
【算法】levenshtein distance编辑距离算法实现

基本介绍

Levenshtein distance是一种度量两个序列(字符串)差异大小的方法。

该方法定义如下：
两个序列(以单词为例，这里序列也可以表示一个句子)的Levenshtein distance是在使用一个单词修改为另一个单词时，通过编辑单个字符(如插入，删除，修改)所需要的最小次数。

这个概念由俄罗斯数学家Vladimir Levenshtein于1965年提出。目前这个距离常用来评价字符识别任务的好坏。

举个例子

将单词“kitten”修改为“sitting”最少需要3次单字符的操作：

kitten -> sitten(将“k”改为“s”)
sitten -> sittin(将“e”改为“i”)
sittin -> sitting(将“g”删除)

原理

假设现在两个字符串A和B，其中A的长度为a，B的长度为b，现要计算A与B之间的Levenshtein distance

我们可以考虑使用动态规划的思想解决这个问题

假设 $A_{i}$ 和 $B_{j}$ 分别为字符串A、B的前 $i、j$ 个字符组成的子串，现在我们来看看将
$A_{i}:A[1]\quad A[2] \quad ...\quad A[i-1]\quad A[i]$
修改为
$B_{j}:B[1]\quad B[2] \quad ... \quad B[j-1]\quad B[j]$
需要的最少编辑次数，即两个子串的Levenshtein distance，下面我们来分别讨论三种操作的操作次数：

插入操作

假设将 $A[1...i]$ 修改为 $B[1...j-1]$ 需要操作数为 $op_{1}$ ，那么在 $A[i]$ 后插入一个字符 $B[j]$ ，这样就可以将 $A[1...i]$ 修改为 $B[1...j]$ ，这时所需要的操作数为 $op_{1}+1$

2.删除操作

假设将 $A[1...i-1]$ 修改为 $B[1...j]$ 需要操作数为 $op_{2}$ ，那么删除 $A[i]$ 就可以将 $A[1...i]$ 修改为 $B[1...j]$ ，这时所需要的操作数为 $op_{2}+1$

3.修改操作

假设将 $A[1...i-1]$ 修改为 $B[1...j-1]$ 需要操作数为 $op_{3}$ ，这时要将 $A[1...i]$ 修改为 $B[1...j]$ 分两种情况：

a. $A[i]\ne B[j]$ ，则将 $A[i]$ 替换成 $B[j]$ 即可完成修改，这时操作数为 $op_{3}+1$

b. $A[i]== B[j]$ ，则将不需要进行修改操作，操作数仍为 $op_{3}$

最后可以得到状态转移方程如下

$lev_{a,b}(i, j)= \left\{ \begin{array}{lr} max(i, j),\quad if\ min(i, j) = 0 \\ min\left\{\begin{array}{lr} lev_{a,b}(i-1,j)+1 \\ lev_{a,b}(i,j-1)+1 \\ lev_{a,b}(i-1,j-1)+1_{a_{i}\ne b_{j}} \\ \end{array} \right. , otherwise\\ \end{array} \right.$

上式中 $1_{a_{i}\ne b_{j}}$ 表示 $a_{i}\ne b_{j}$ 表达式取0，否则取1

Python代码如下

得到上述转移方程后我们就很容易写出下面程序了

1.按照上述公式编写，没做优化的情况

import numpy as np

def Lev_distance():
    A = "fafasa"
    B = "faftreassa"

    dp = np.zeros((len(A) + 1, len(B) + 1))

    for i in xrange(len(A) + 1):
        dp[i][0] = i
    for j in xrange(len(B) + 1):
        dp[0][j] = j

    for i in xrange(1, len(A) + 1):
        for j in xrange(1, len(B) + 1):
            if A[i - 1] == B[j - 1]:
                dp[i][j] = dp[i - 1][j - 1]
            else:
                dp[i][j] = min(dp[i - 1][j - 1], min(dp[i][j - 1], dp[i - 1][j])) + 1

    print("Levenshtein distance: {}".format(dp[len(A)][len(B)]))

if __name__=="__main__":
    Lev_distance()

2.使用滚动数组优化上述代码

import numpy as np

def Lev_distance():
    A = "fafasa"
    B = "faftreassa"

    dp = np.array(np.arange(len(B)+1))

    for i in xrange(1, len(A)+1):
        temp1 = dp[0]
        dp[0] += 1
        for j in xrange(1, len(B)+1):
            temp2 = dp[j]
            if A[i-1] == B[j-1]:
                dp[j] = temp1
            else:
                dp[j] = min(temp1, min(dp[j-1], dp[j]))+1
            temp1 = temp2

    print("Levenshtein distance: {}".format(dp[len(B)]))

if __name__=="__main__":
    Lev_distance()

参考

[1] https://en.wikipedia.org/wiki/Levenshtein_distance
[2] http://www.cnblogs.com/BlackStorm/p/5400809.html

欢迎加入OCR交流群：785515057(此群已满)
欢迎加入OCR交流群2：826714963

NLP-2012斯坦福课程第3课基本问题
一、最小编辑距离编辑距离（Minimum Edit Distance，MED），又称Levenshtein距离，是...
动态规划 001 - 编辑距离(Levenshtein Dist
问题字符串的编辑距离也被称为距Levenshtein距离（Levenshtein Distance），属于经典算...
Levenshtein distance（编辑距离）
基本介绍 Levenshtein distance是一种度量两个序列(字符串)差异大小的方法。该方法定义如下：两...
字符串距离
2020-01-10 莱文斯坦距离又称Levenshtein距离，是编辑距离（edit distance）的一种...
Levenshtein Distance最小编辑距离
Levenshtein Distance是最小编辑距离的一种实现，网上搜到的一些python的实现，现在用前端的J...
编辑距离 (Levenshtein Distance算法)
很久没有写算法了, 个人算法中等, 不好不坏. 觉的学习算法的好处很多, 还可以保持大脑活跃度, 因此最近会写些算...
字符串相似度（编辑距离算法）
编辑距离（Edit Distance），最先是由俄国科学家Vladimir Levenshtein在1965年发明...
图解字符串相似算法
概念百度百科编辑距离（Edit Distance），又称Levenshtein距离，是指两个字串之间，由一个转成...
最小编辑距离（Edit Distance）
编辑距离（Edit Distance），又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最...
【算法】levenshtein distance编辑距离算法实现
标签相似度算法：levenshtein distance编辑距离算法步骤： 1..两组标签组组合成二维数组。行：...