1. 开场白
- 我想首先感谢仇经理组织和推动着技术分享会的召开,并给予了我们在选题上充分的自由;同时也要感谢这次来参加分享会的小伙伴,因为未来半个小时你们可能要听我一本正经的胡说八道;
- 在准备这次分享内容的时候我反复阅读了很多资料,但是可能还是有些错误的地方,希望小伙伴们能直接指出。
2. 关于本次的主题
本次分享会的主题叫“简单之美-语言统计模型”,之所以起这个名字是因为在现在统计学理论下,使用简单的数学模型就能解决看似复杂的自然语言分析问题。而这个问题曾经困扰了世界上顶级的科学家将近二十年,我们本次的主体和范围就是围绕在回顾前人对自然语言语义分析问题最优解的方法的探寻上。
3.自然语言和机器语言
我们在座的小伙伴们在工作的大部分时间都在和机器语言跟计算机打交道。不论是与机器还是与人交流,为了确保我们都能彼此相互理解对方的意图,我们都要用文法规则即语法来进行约束。(当然如果计算机输出的不是预期结果那可能是他不理解你了)。
graph LR
自然语言-->人
人-->机器语言
随着1946年冯·诺依曼发明了现代的电子计算机,计算机在很多事情上做得比人还好,既然如此,机器是否能懂得自然语言呢?事实上当计算机出现以后,人类就开始琢磨这件事了。
graph LR
自然语言-->机器语言
4. 自然语言处理的意义
- 语音识别
- 机器翻译
- 自动问答
- 自动摘要
5. 自然语言处理的前世今生-从规则到统计
从20世纪五十年代到70年代是科学家们走弯路的阶段。全世界的科学家对计算机处理自然语言的认识都被自己局限在人类学习语言的方式上,也就是说用电脑模拟人脑。一直到70年代一些自然语言处理的先驱重新认识了这个问题,找到了基于数学模型的统计方法,自然语言处理才进入了第二个阶段。
虽然早期自然语言处理的工作对今天没有任何指导意义,但是了解几代科学家的认识过程,对我们了解自然语言处理的方法很有好处。
要让计算机完成翻译或者语音识别这样只有人类才能做的事情,就必须先让计算机理解自然语言,而做到这一点就必须让计算机有类似我们人类这样的智能。
举个例子,如果一个人必须同时懂得英语和汉语才能做到两种语言互转
graph LR
中文-->句法分析&语义分析
句法分析&语义分析 --> 英文
统计语言模型产生的初衷是为了解决语音识别问题。在语音识别中,计算机需要知道一个文字的序列能否构成一个大家理解的有意义的句子,然后显示或者打印给使用者。
5. 基于规则
所以我们需要先对句子进行句法分析
兔子喜欢白菜。
graph TB
句子-->主语
句子-->谓语
句子-->宾语
句子-->句号
主语-->名词
谓语-->动词
宾语-->名词1
名词-->兔子
动词-->喜欢
名词1-->白菜
做好两件事,即分析语句和获取语义。
语法规则可以很容易的用计算机算法描述,所以这就坚定了大家对于基于规则的自然语言处理的信心。
张伯礼参加武汉市中医医院挂牌天津中医药大学教学医院的签约授牌仪式。
对于上下文无关的文法,计算复杂度基本上等于语句长度的平方。
对于上下文有关的文法,计算复杂度基本上等于语句长度的六次方。
问题:
- 文法规则无法覆盖所有的语句
- 无法结合上下文语义
- 不同语言的文法规则不同
6. 基于统计学
我们今天的机器翻译和语音识别靠的是数学,更准确的说是统计学。
还是刚刚的句子我们把它里面的文字调换一下顺序
武汉市天津中医药大学中医医院参加张伯礼挂牌教学医院的签约授牌仪式。
一个句子是否合理,就看看它的可能性大小如何,可能性就用概率来衡量。
大数定律:概率论中讨论随机变量序列的算术平均值向随机变量各数学期望的算术平均值收敛的定律。
在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。
在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。
7. 我想向大家先提前说一下我这次想要传达的三个观点
- 解决问题的能力其实就是对问题的拆解的能力。
- 新技术的产生可能使用的还是多年前基础理论研究产出的成果。
- 只要方向正确,持之以恒,问题总会被解决。
网友评论