SimHash和MinHash

作者: 吹洞箫饮酒杏花下 | 来源:发表于2017-12-20 15:03 被阅读0次

在搜索中，文本滤重可以节省存储空间，并使得排序效果更优。在推荐中，如果应用协同过滤算法，可以节省计算时间。不管在哪种应用场景下，面临的问题都是，需要滤重的对象的数量非常大，且其特征的表示维度非常高，如果进行两两的比较，那么时间复杂度和空间复杂度都很高。因此，1要对特征进行降维，但是降维后的特征仍可计算相似度，根据降维的算法不同，计算相似度的算法不同。（局部敏感哈希LSH可以将相似的字符串hash得到相似的hash值。）2 不能两两进行比较，需要根据降维后的特征，选出候选的最可能相似的两两进行比较即可，把完全不可能相似的排除在外。

在google的论文里，再论文本身的滤重中用到了SIMHash。在论文的推荐中用到了MinHash。两者都是局部敏感哈希。

SimHash：

1. 首先基于传统的IR方法，将文章转换为一组加权的特征向量。

2. 初始化一个f维的向量V，其中每一个元素初始值为0。

3. 对于文章的特征向量集中的每一个特征，做如下计算：

a) 利用传统的hash算法映射到一个f-bit（一般设成32位或者64位）的签名。对于这个f- bit的签名，如果签名的第i位上为1，则对向量V中第i维加上这个特征的权值，否则对向量的第i维减去该特征的权值；

b) 整个特征向量的集合迭代上述运算后，根据V中每一维向量的符号来确定生成的f-bit指纹的值，如果V的第i维为正数，则生成f-bit指纹的第i维为1，否则为0。

用汉明距离来衡量相似度。

Simhash算法比较高效，比较适用于对于长文本。

MinHash：集合A、B是docA、docB的one-hot词向量。

1. 使用一组随机的hash函数h(x)对集合A和B中的每个元素进行hash

2. hmin(A)、hmin(B)分别表示分别hash后集合A和集合B的最小值的向量。

3. jarcarrd距离来衡量相似度。

候选的选择：对于一个32位的指纹来说，将该指纹划分成4段（band），每个区间8位，如果两个指纹至多存在3（设k=3）位差异，那么至少有一段的8位是完全相同的，因此可以考虑利用分段来建立索引，来减少需要匹配的候选指纹数量。

SIMHash后的汉明距离为何可以衡量相似度：衡量两个文本的相似度可以看做衡量高维空间向量的夹角。

区别：

SIMHash 不适合短文本？

场景特征：数据量1亿+ ，线下做数据滤重。

但是没有每天新增n多数据。因此在对候选相似集合进行比较时，对性能要求不是特别高。

文本长度算是短文本。短文本测试如下，图为盗图。相似度在0.8左右的Hamming距离为7，只有相似度高到0.9412，Hamming距离才近到4，此时，反观Google对此算法的应用场景：网页近重复。

MinHash 适合稀疏的数据？

MinHash： 100维，10*10band 。0.7 and （0.7 or 0.7） 122行

50维,10*5band 。0.7 and （0.7 or 0.7） 82行

50维,5*10band 。0.7 and （0.7 or 0.7） 866行 1个半小时

50维,2*25band 。0.7 and （0.7 or 0.7） 5%的reduce失败，未找到原因。但是1个半小时， 1w+ 行

网友评论

本文标题：SimHash和MinHash

本文链接：https://www.haomeiwen.com/subject/qffiixtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

SimHash和MinHash

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读