【论文阅读】统计语言模型综述Statistical Langua

作者: 神游物外的轮子 | 来源:发表于2019-07-31 16:33 被阅读0次

【论文阅读】统计语言模型综述Statistical Langua
概念整理
word2vec与cw2vec的数学原理
第3章统计语言模型
数学之美-第三章-统计语言模型
视觉语言导航总结
【论文阅读】RNN语言模型
论文阅读_ 解释黑盒模型方法综述
微习惯复盘与感恩日记2022-02-11
语言模型

TWO DECADES OF STATISTICAL LANGUAGE MODELING: WHERE DO WE GO FROM HERE?

一篇综述类文章，描述统计语言模型的主要工作。
语言模型涉及到很多任务：语音识别、机器翻译、文件分类、光学字符识别(OCR)、信息检索、手写识别、拼写纠错等等。

依次介绍：

统计语言模型
现有主要技术
研究热点
提出了将语言学知识融入统计语言模型的一个思路

统计语言模型

统计语言模型可以视作一个关于句子的概率分布
方程(1)可以参考李航的朴素贝叶斯章节公式(4.7)，大意是指对于所有的 $s$ ，分母相当于常数，不影响最大值的计算。

如何衡量

平均 $log$ 相似度
$Average\_Log\_Likelihood(D | M) = \frac{1}{n} \sum_i log P_M(D_i)$
其中 $D = {D_1, D_2, ... , D_n}$ 是新的样本， $M$ 是语言模型。
基于经验的交叉熵
$cross\_entropy (P; P_M) = - \sum_D P(D) \cdot log P_M(D)$
其中 $P$ 为真实的数据分布， $P_M$ 为语言模型的分布。
困惑度
$perplexity(P;P_M) = 2^{cross\_entropy(P:P_M)}$

已知问题

领域敏感
错误的独立概率假设
Shannon-style experiments（不懂）

统计语言模型主要技术综述

1. n-grams

单词聚类

2. 决策树

可能存在超越ngram的决策树，但是找到它需要克服计算量以及数据稀疏的问题

3. 语言学模型

Context free grammar(CFG)

我的理解是有一份词表，一套转化规则/生成规则，以及非终端符号（这个不懂，猜测是转化规则的输入）。可以将词表中的单词按照规则进行转化。
一个成功的例子是使用CFG生成一批三元词，取代原有统计模型中三元词。
CFG一些简单知识

Link grammar

4. 指数模型

为了解决数据分布不均？

5. 自适应模型

交叉领域
$P_{adaptive}(w|h) = \lambda P_{static}(w|h) + (1- \lambda) P_{cache} (w | h)$
within-domain adaptatio(不怎么懂)

主要研究方向

Dependency models(DG)

有点类似ngram，ngram使用相邻的单词作为预测的依据，DG使用句子中提取出的依赖关系，形成依赖图。

Dimensionality reduction

一般将词表中的单词视作独立项，其中包含着结构化的信息，应该可以降低维度；
同一个单词在不同的话题中概率分布不同，可以提取基础话题模型；

Whole sentence models

经验之谈

一份IBM非官方预测指出：二元单词模型的学习在亿量级语料下基本饱和，三元单词模型在包含十亿级别的语料量级下达到饱和。
一般来说，困惑度降低5%并不会带来显著的影响，10%-20%的改进会有一点影响，大于30%的改进会有非常显著的效果。
语料收集线索：
Switchboard domain (conversa- tional speech, [68])
40 million words of the WSJ corpus (newspaper articles, [69])
140 million words of the BN corpus (broadcast news transcriptions, [70])
使用SVD对矩阵进行降维。
有趣的例子：GOD和Friday的关联性"Thank God It’s Friday"，其实没有关联性啦。

网友评论

本文标题：【论文阅读】统计语言模型综述Statistical Langua

本文链接：https://www.haomeiwen.com/subject/quazrctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！