理解 simhash（局部敏感映射）

作者: Pope怯懦懦地 | 来源:发表于2018-06-22 22:01 被阅读57次

看了一堆的资料，就这篇 @linecong 写的《理解 GOOGLE SIMHASH 算法原理》讲到点子上了。

让我们回到原点，我们想要干成个什么事呢？我们想要找到一种文本指纹，这种指纹满足这么些个条件：

当然，如果这种算法足够高效，那就更好了。

这里面有个问题：怎么评判文本的相似度呢？又怎么衡量指纹的相似度呢？呃~~这个问题先放一放。

我们先来看这样一种做法：假设我们要给「你妈妈喊你回家」做指纹。

我们先随便构造一张映射表吧：

那么原文本就变成了：(1, 1) + (1, -1) + (1, -1) + (1, 1) + (-1, 1) = (3, 1) 。

现在，我们再做一句「你妈妈喊你妈妈」：(1, 1) + (1, -1) + (1, -1) + (1, 1) + (1, -1) = (5, -1) 。这两个向量的夹角大概是 30°，算是比较接近。

改进

现在，我们嫌算向量夹角太麻烦，改用「和向量所在象限」作为指纹。
因为「你妈妈喊你回家」的和向量 (3, 1) 位于第一象限，而「你妈妈喊你妈妈」的和向量 (5, -1) 位于第四象限，和「你妈妈喊你回家」的指纹「第一象限」毗邻。我们就认为这两句很相似。

缺陷

可能你已经发现了这种算法的缺陷：这样算出来的指纹其实和「特征组的顺序」是没有关系的，因为向量的加法满足交换律。不过它倒是能满足「同样的文本生成的指纹一定相同」这点。这个问题是怎么解决的呢？

答案是「不用解决」，用同样的特征向量组合出同样、且「有意义」的句子，这种概率实在太小了：

%w[你 妈妈 喊 你 回家].permutation.to_a.uniq.map { |e| puts e.join }

去重以后 60 种，有意义的勉强 11 种，18% 的概率。随着文本的增长，我敢打包票，有意义的概率呈指数衰减。

现在再去看算法，就一清二楚了吧。懒得写了……

对了，原算法里面，每个特征向量是要乘一个权重的。

论文原文在这。但不推荐去看。

强烈推荐大家仔细去读读 @linecong 那篇《理解 GOOGLE SIMHASH 算法原理》。里面提出的「 simhash 其实是「随机超平面算法」的变种」以及「「随机超平面算法」为何能够描述文本相似程度」等内容让人惊叹😱 原来还可以辣么简单、辣么美！！！

本文标题：理解 simhash（局部敏感映射）

本文链接：https://www.haomeiwen.com/subject/omslyftx.html