FP-Growth算法实现词距离计算
对于句式非常整齐,有很强的规律性。而对于这种句式的挖掘,有一类算法非常擅长,那就是频繁模式的数据挖掘算法。
N-Gram算法实现词距离计算
使用N-Gram计算词距离的方法主要有两种,一种是基于公共子串的方法,另一种是embedding的方法。
N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念。因为对于字或词的连接关系,我们有这样的一种认知(或者叫假设):即后一个字/词的出现概率只与它前面的n个字/词有关系,而与其他元素没有关系。所以我们用一个N元窗口去逐个扫描字/词的前后连续元素,那么就会得到一个字/词的连续向量。基于逐个向量我们就可以对不同的字/词计算其距离。如果N=2,则为bi-gram,如果N=3,则为tri-gram。
embadding是文本处理中的一个非常重要的步骤,随着深度学习不断深度的应用,这项工作就越显得越来越重要,并且很多研究学者的工作显示,词向量能很好地反映词的语义属性,比如词向量之间可以进行加、减操作,并且操作后的向量能得到对应语义的向量,经常用到的例子是:国王-男人+女人=皇后。在国外的一个购物 网站,运用词向量进行服装推荐,用户选择一款衣服,再输入一个单词就可以推荐出对应语义的服装,比如对于一个条纹T恤+pregnant,则推荐对应的孕妇装款式。
网友评论