TWO DECADES OF STATISTICAL LANGUAGE MODELING: WHERE DO WE GO FROM HERE?
一篇综述类文章,描述统计语言模型的主要工作。
语言模型涉及到很多任务:语音识别、机器翻译、文件分类、光学字符识别(OCR)、信息检索、手写识别、拼写纠错等等。
依次介绍:
- 统计语言模型
- 现有主要技术
- 研究热点
- 提出了将语言学知识融入统计语言模型的一个思路
统计语言模型
统计语言模型可以视作一个关于句子的概率分布
方程(1)可以参考李航的朴素贝叶斯章节公式(4.7),大意是指对于所有的,分母相当于常数,不影响最大值的计算。
如何衡量
- 平均相似度
其中是新的样本,是语言模型。 - 基于经验的交叉熵
其中为真实的数据分布,为语言模型的分布。 - 困惑度
已知问题
- 领域敏感
- 错误的独立概率假设
- Shannon-style experiments(不懂)
统计语言模型主要技术综述
1. n-grams
单词聚类
2. 决策树
可能存在超越ngram的决策树,但是找到它需要克服计算量以及数据稀疏的问题
3. 语言学模型
Context free grammar(CFG)
我的理解是有一份词表,一套转化规则/生成规则,以及非终端符号(这个不懂,猜测是转化规则的输入)。可以将词表中的单词按照规则进行转化。
一个成功的例子是使用CFG生成一批三元词,取代原有统计模型中三元词。
CFG一些简单知识
Link grammar
4. 指数模型
为了解决数据分布不均?
5. 自适应模型
交叉领域
within-domain adaptatio(不怎么懂)
主要研究方向
Dependency models(DG)
有点类似ngram,ngram使用相邻的单词作为预测的依据,DG使用句子中提取出的依赖关系,形成依赖图。
Dimensionality reduction
一般将词表中的单词视作独立项,其中包含着结构化的信息,应该可以降低维度;
同一个单词在不同的话题中概率分布不同,可以提取基础话题模型;
Whole sentence models
经验之谈
- 一份IBM非官方预测指出:二元单词模型的学习在亿量级语料下基本饱和,三元单词模型在包含十亿级别的语料量级下达到饱和。
- 一般来说,困惑度降低5%并不会带来显著的影响,10%-20%的改进会有一点影响,大于30%的改进会有非常显著的效果。
- 语料收集线索:
Switchboard domain (conversa- tional speech, [68])
40 million words of the WSJ corpus (newspaper articles, [69])
140 million words of the BN corpus (broadcast news transcriptions, [70]) - 使用SVD对矩阵进行降维。
- 有趣的例子:GOD和Friday的关联性"Thank God It’s Friday",其实没有关联性啦。
网友评论