参考:http://fancyerii.github.io/books/word-embedding/
1、语言要首先转换成词向量。
2、one-hot向量将词转换为二进制且仅有一位为1。
缺点:会导致词典非常大,且为一维数据,不容易衡量词义。
3、N-Gram语言模型:计算概率和最大似然估计来估计参数
4、Word2Vec:
CBOW(Continuous Bag-of-Word)
SG(Skip-Gram)
5、加速计算:
Hierarchical Softmax:使用二叉树
Negative Sampling:采样一部分来计算
6、马尔可夫模型:
定长序列的马尔可夫模型
变长序列的马尔可夫模型:增加STOP
Trigram语言模型
7、平滑方法
discount
8、语言模型评价标准
perplexity(PPL)
9、RNN语言模型
n-gram语言模型问题之一是不能利用长距离的信息
网友评论