美文网首页
简单之美-语言统计模型

简单之美-语言统计模型

作者: 肚子大脖子细 | 来源:发表于2020-09-10 21:04 被阅读0次

1. 开场白

  • 我想首先感谢仇经理组织和推动着技术分享会的召开,并给予了我们在选题上充分的自由;同时也要感谢这次来参加分享会的小伙伴,因为未来半个小时你们可能要听我一本正经的胡说八道;
  • 在准备这次分享内容的时候我反复阅读了很多资料,但是可能还是有些错误的地方,希望小伙伴们能直接指出。

2. 关于本次的主题

本次分享会的主题叫“简单之美-语言统计模型”,之所以起这个名字是因为在现在统计学理论下,使用简单的数学模型就能解决看似复杂的自然语言分析问题。而这个问题曾经困扰了世界上顶级的科学家将近二十年,我们本次的主体和范围就是围绕在回顾前人对自然语言语义分析问题最优解的方法的探寻上。

3.自然语言和机器语言

我们在座的小伙伴们在工作的大部分时间都在和机器语言跟计算机打交道。不论是与机器还是与人交流,为了确保我们都能彼此相互理解对方的意图,我们都要用文法规则即语法来进行约束。(当然如果计算机输出的不是预期结果那可能是他不理解你了)。

graph LR
自然语言-->人
人-->机器语言

随着1946年冯·诺依曼发明了现代的电子计算机,计算机在很多事情上做得比人还好,既然如此,机器是否能懂得自然语言呢?事实上当计算机出现以后,人类就开始琢磨这件事了。

graph LR
自然语言-->机器语言

4. 自然语言处理的意义

  • 语音识别
  • 机器翻译
  • 自动问答
  • 自动摘要

5. 自然语言处理的前世今生-从规则到统计

从20世纪五十年代到70年代是科学家们走弯路的阶段。全世界的科学家对计算机处理自然语言的认识都被自己局限在人类学习语言的方式上,也就是说用电脑模拟人脑。一直到70年代一些自然语言处理的先驱重新认识了这个问题,找到了基于数学模型的统计方法,自然语言处理才进入了第二个阶段。
虽然早期自然语言处理的工作对今天没有任何指导意义,但是了解几代科学家的认识过程,对我们了解自然语言处理的方法很有好处。

要让计算机完成翻译或者语音识别这样只有人类才能做的事情,就必须先让计算机理解自然语言,而做到这一点就必须让计算机有类似我们人类这样的智能。

举个例子,如果一个人必须同时懂得英语和汉语才能做到两种语言互转

graph LR
中文-->句法分析&语义分析
句法分析&语义分析 --> 英文

统计语言模型产生的初衷是为了解决语音识别问题。在语音识别中,计算机需要知道一个文字的序列能否构成一个大家理解的有意义的句子,然后显示或者打印给使用者。

5. 基于规则

所以我们需要先对句子进行句法分析

兔子喜欢白菜。

graph TB
句子-->主语
句子-->谓语
句子-->宾语
句子-->句号
主语-->名词
谓语-->动词
宾语-->名词1
名词-->兔子
动词-->喜欢
名词1-->白菜

做好两件事,即分析语句和获取语义。

语法规则可以很容易的用计算机算法描述,所以这就坚定了大家对于基于规则的自然语言处理的信心。

张伯礼参加武汉市中医医院挂牌天津中医药大学教学医院的签约授牌仪式。

对于上下文无关的文法,计算复杂度基本上等于语句长度的平方。
对于上下文有关的文法,计算复杂度基本上等于语句长度的六次方。

问题:

  1. 文法规则无法覆盖所有的语句
  2. 无法结合上下文语义
  3. 不同语言的文法规则不同

6. 基于统计学

我们今天的机器翻译和语音识别靠的是数学,更准确的说是统计学。

还是刚刚的句子我们把它里面的文字调换一下顺序

武汉市天津中医药大学中医医院参加张伯礼挂牌教学医院的签约授牌仪式。

一个句子是否合理,就看看它的可能性大小如何,可能性就用概率来衡量。

大数定律:概率论中讨论随机变量序列的算术平均值向随机变量各数学期望的算术平均值收敛的定律。

在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。

在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。

7. 我想向大家先提前说一下我这次想要传达的三个观点

  1. 解决问题的能力其实就是对问题的拆解的能力。
  2. 新技术的产生可能使用的还是多年前基础理论研究产出的成果。
  3. 只要方向正确,持之以恒,问题总会被解决。

相关文章

  • 简单之美-语言统计模型

    1. 开场白 我想首先感谢仇经理组织和推动着技术分享会的召开,并给予了我们在选题上充分的自由;同时也要感谢这次来参...

  • 数学之美在google中文黑板报的原文

    数学之美 系列一 -- 统计语言模型 数学之美 系列二 -- 谈谈中文分词 数学之美 系列三 -- 隐含马尔可夫模...

  • 第3章 统计语言模型

    以下内容学习、摘录自《数学之美》 统计语言模型( Statistical Language Model),是今天所...

  • 《数学之美》之统计语言模型

    这一章很有意思,除了在机器翻译、语言识别、印刷体识别、拼写纠错、汉字输入、搜索领域,似乎在运维的事件领域也很有应用...

  • 《数学之美》统计语言模型、分词

    语言模型 基于规则的模型 基于概率的模型 统计语言模型 问题:整个句子的概率:为了保证句子通顺,不出现歧义,计算整...

  • 语言模型

    什么是语言模型 语言模型建模方法分为 统计语言模型 和 规则语言模型 两大类,前者完全依靠大文本的数据,用统计的方...

  • word2vec与cw2vec的数学原理

    统计语言模型(Statistical Language Model) 传统的统计语言模型是表示语言基本单位(一般为...

  • 概念整理

    统计语言模型 统计语言模型(Statistical Language Model)即是用来描述词、语句乃至于整个文...

  • 第4章 谈谈分词

    以下内容学习、摘录自《数学之美》 利用统计语言模型进行自然语言处理是建立在词的基础上的,因为词是表达语义的最小单位...

  • CMU Sphinx语音识别入门:构建语言模型

      CMUSphinx支持多种语言解码模型,包括:关键字列表模型、语法模型、统计语言模型和语言语音模型。不同的模型...

网友评论

      本文标题:简单之美-语言统计模型

      本文链接:https://www.haomeiwen.com/subject/xiowsktx.html