深度学习——计算任意词距离模型

作者: 天禧68 | 来源:发表于2018-11-04 21:17 被阅读0次

深度学习——计算任意词距离模型
词向量原理
Tensorizing Neural Networks 笔记
TPU: 设计和拆解ASIC芯片
深入理解 LSTM 的 BPTT 过程及实现
深度学习
Note - 深度学习模型的部署
揭秘支付宝中的深度学习引擎：xNN
深度学习技术发展现状浅析
深层神经网络

FP-Growth算法实现词距离计算

对于句式非常整齐，有很强的规律性。而对于这种句式的挖掘，有一类算法非常擅长，那就是频繁模式的数据挖掘算法。

N-Gram算法实现词距离计算

使用N-Gram计算词距离的方法主要有两种，一种是基于公共子串的方法，另一种是embedding的方法。
N-Gram（有时也称为N元模型）是自然语言处理中一个非常重要的概念。因为对于字或词的连接关系，我们有这样的一种认知（或者叫假设）：即后一个字/词的出现概率只与它前面的n个字/词有关系，而与其他元素没有关系。所以我们用一个N元窗口去逐个扫描字/词的前后连续元素，那么就会得到一个字/词的连续向量。基于逐个向量我们就可以对不同的字/词计算其距离。如果N=2，则为bi-gram，如果N=3，则为tri-gram。
embadding是文本处理中的一个非常重要的步骤，随着深度学习不断深度的应用，这项工作就越显得越来越重要，并且很多研究学者的工作显示，词向量能很好地反映词的语义属性，比如词向量之间可以进行加、减操作，并且操作后的向量能得到对应语义的向量，经常用到的例子是：国王-男人+女人=皇后。在国外的一个购物网站，运用词向量进行服装推荐，用户选择一款衣服，再输入一个单词就可以推荐出对应语义的服装，比如对于一个条纹T恤+pregnant，则推荐对应的孕妇装款式。