这个系列文章主要记录我学习自然语言处理的过程中的一些知识点汇总和自己对于理论的理解,希望可以对自己的学习过程有个记录和反思,如果有同学觉得从中学到了一些知识,那就更好了,在简书上我学到了很多知识,也希望我的文章可以对其他人有所帮助
自然语言处理到底是什么?
标准定义(定义有很多,这个相对来说权威很多)
1999年出版的《计算机进展》(Advanced inComputers)第47卷上,美国计算机科学家马纳瑞斯(BillManaris)在《从人-机交互的角度看自然语言处理》一文中给自然语言处理提出的如下定义:“自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguisticperformance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”这个定义的英文如下:“NLP could be defined as the discipline that studies the linguistic aspectsof human-human and human-machine communication, develops models oflinguistic competence and performance, employs computational frameworks toimplement process incorporating such models, identifies methodologies foriterative refinement of such processes/models, and investigates techniques forevaluating the result systems.”
根据上面这个定义,自然语言处理要研究“在人与人交际中以及在人与计算机交际中的语言问题”,既要研究语言,又要研究计算机,因此,它是一门交叉学科,它涉及语言学、计算机科学、数学、自动化技术等不同的学科
几个基本概念帮助理解
1.自然语言指人类使用的语言,如汉语、英语等
2.语言是思维的载体,是人际交流的工具
3.语言的两种属性-文字和声音
4.人类历史上以语言文字形式记载和流传的知识占知识总量的人类历史上以语言文字形式记载和流传的知识占知识总量的80 %以上(真的是已经非常大了)
两个研究中面对的问题
1.如何让计算机实现人们希望的语言处理功能?
2.如何让计算机实现海量语言信息的自动处理和有效利用?
自然语言处理的历史
在进入具体知识点之前先来回顾一下自然语言处理的历史:
1.萌芽期(再用经验主义来研究):1946年世界上第一台计算机出现,自然语言理解的研究起始于机器翻译
1.1 1946年 UPenn 的J. P. Eckert 和 J. W. Mauchly 设计了世界上第一台电子计算机 ENIAC
1.2 英国工程师 A. D. Booth 和美国洛克菲勒基金会(Rockefeller Foundation )副总裁 W. Weaver 提出机器翻译的概念(最开始研究自然语言处理是种机器翻译开始的)
可以说机器翻译的产生标志着自然语言处理这门学科的开始,也是这个时候提出了利用数学方法处理语言学问题的新思路
2.发展期(专项理性的基于规则的研究状态):自1966年美国自动语言处理咨询委员会(ALPAC) 提出ALPAC报告开始到20世纪80年代中期。研究重点转向其它分支:人机接口、对话系统、信息检索等。乔姆斯基语法理论及一批语法理论发表,基本方法:基于规则分析方法
2.1 乔姆斯基发表“语法理论”标志着基于规则的分析方法的诞生
自从乔姆斯基发表语法理论后,研究界普遍开始转向基于规则的研究方法(他们还没有发现基于规则的研究方法的缺点),基于规则的研究方法概括起来就是指:人工编汇初始语言知识 + 推理系统
乔姆斯基这个人在自然语言处理的研究中可以说贡献是非常大的,在自然语言处理界那绝对是重量级的任务,说起来他这个人也挺有意思的,它不仅是提出“语法理论”的重量级研究学者,同时还是美国上世纪60年代一个特别活跃的社会活动家,美国上世纪60年代那是个及其复杂的年代,越战、民权运动、女性平权、古巴导弹危机、肯尼迪总统被刺杀、马丁路德金(后来也没刺杀)、嬉皮士运动等等这些都发生在短短的十年间,我在举几个人帮助理解下那个年代,比如:甲壳虫乐队、滚石乐队、刚刚拿了诺贝尔文学奖的歌手Bob Dylan、玛丽莲梦露、安迪.沃霍尔等等,有兴趣的同学可以找几篇文章看看,还是挺有意思的,回到乔姆斯基,我摘几个网上评论简要说一下:
1967年在《纽约书评》上发表的一篇题为“知识分子的责任”的文章,乔姆斯基成为越南战争的主要反对者之一
他自称无政府主义者(非常的理想主义),他尤其认同无政府主义中以劳工为核心的无政府工团主义
乔姆斯基认为自己是经典自由派中的保守分子。他甚至还自称犹太复国主义者,尽管他意识到他所谓的犹太复国主义在今天已经被很多人认为是反犹太复国主义
乔姆斯基最近当选为领导全球政府的11人之一。可能会让有些人惊讶的是,他仅位居第四,排在达赖喇嘛、比尔·克林顿,和被选为总统的纳尔逊·曼德拉之后.....
还有很多,大家有兴趣可以找几篇文章看一下,挺有意思的
3.繁荣期(发现规则缺点比较多,有回到了经验主义...):自20世纪80年代末期以后,基于大规模语料库的统计方法引入自然语言处理
3.1 1980s 美国在语音识别方面取得重要进展,统计方法在语音识别中获得成功
3.2 基于噪声信道模型的统计机器翻译方法提出
学界从经验主义到规则主义,之后又转到经验主义,这个真是30年河东,30年河西啊
应用
1.机器翻译
2.信息检索
3.自动文摘
4.文档分类
5.问答系统
6.信息抽取
现在来看好像没有一个问题被彻底解决了,除了机器翻译达到了很大的正确率,顺便说一句最近看youtube用自动生成字幕感觉这功能已经达到了很好的效果,很喜欢
END
网友评论