计算语言学(computational linguistics)是用计算机研究和处理自然语言的一门新兴的交叉学科。在其发展过程中,这门学科的研究就分别在语言学、计算机科学、数学、心理学、电子工程、认知科学等不同领域中进行过,具有明显的跨学科特色。
计算语言学对人工智能意义重大
计算语言学是研制智能化电子计算机的一项基础性工作,而人工智能的研究又离不开对自然语言的处理,因此计算语言学的研究在人工智能的研究中起着举足轻重的作用。
人们早已为计算机软件设计了许多人工语言。这些人工语言与自然语言一样,都遵循着形式语言的规律和法则。美国语言学家乔姆斯基(N. Chomsky)提出的形式语言理论,既适用于人工语言,也适用于自然语言。这有力地说明,二者在形式描述方面,确实存在着某些共性。
但是,自然语言至少在四个方面与人工语言大相径庭:自然语言中充满着歧义,而人工语言中的歧义是可以控制的;自然语言的结构复杂多样,而人工语言的结构相对简单;自然语言的语义表达千变万化,尚无一种简单而通用的描述途径,而人工语言的语义可以由人来直接定义;自然语言的结构和语义联系错综复杂,一般不存在一一对应的同构关系,而人工语言则常常可以把结构和语义分别进行处理,结构和语义之间有着整齐的一一对应的同构关系。由于自然语言具有的这些独特性质,使得自然语言的计算机处理成为人工智能的一大难题。
发展趋势对研究者提出更高要求
20世纪50年代以来,国内外学者在这个新的学科领域进行了不懈探索,现已取得可喜的成绩。当今互联网的普及又对自然语言的计算机处理水平提出了更高的要求,世界各国也因此更加重视计算语言学的研究。当前计算语言学发展的特点主要表现在以下五个方面。
第一,基于句法—语义规则的理性主义方法受到质疑。随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为计算语言学研究的主要战略目标,基于语言大数据的经验主义方法在计算语言学中独占鳌头。
理性主义方法的一个重要弱点表现在实践方面。从事计算语言学研究的理性主义者采用主流技术,基于规则的句法—语义分析,尽管这些应用系统在某些受限的“子语言”(sub-language)中也曾经获得一定程度的成功,但要想进一步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然困难重重。因为,从自然语言处理系统所需要装备的语言知识来看,其数量之浩大和颗粒度之精细,都是以往的任何系统所远远不及的。而且,随着系统拥有的知识在数量上和程度上发生巨大变化,系统在如何获取、表示和管理知识等基本问题上,必须另辟蹊径。这样,在计算语言学研究中就出现了应对大规模真实文本的问题。当前语料库的建设和语料库语言学的崛起,正是计算语言学战略目标转移的一个重要标志。随着人们对大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的分析方法(即经验主义的方法)至少是对基于规则的分析方法(即理性主义的方法)的一个重要补充。只有具备“大规模”(large-scale)和“真实”(authentic)这两个因素,语料库才是最理想的语言知识资源。
这种基于大数据的经验主义方法也影响到了语言材料的搜集、整理和加工,促进了语言学研究方法的变革。理论语言学的研究必须以语言事实作为根据,详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。而计算机的运用,大大减轻了人们搜集、整理和加工语料的劳动。
第二,自然语言处理中越来越多地使用机器学习(machine learning)的方法来获取语言知识,基于神经网络的深度学习(deep learning)方法成为计算语言学的主流方法。
进入21世纪后,计算语言学中经验主义倾向进一步以惊人的步伐加速发展。这样的加速发展在很大的程度上由三种彼此协同的趋势所推动。首先是建立带标记语料库的趋势。这些语言资源的存在,大大地推动了人们使用有监督的机器学习方法来处理那些传统上非常复杂的问题,例如自动剖析和自动语义分析等。这些语言资源也推动了有竞争性的评测机制的建立。其次是统计机器学习的趋势。对于机器学习的日益增长的重视,导致了计算语言学研究者们与统计机器学习的研究者更加频繁地交流互动。对于支持向量机技术、最大熵技术以及与它们在形式上等价的多项逻辑回归、图式贝叶斯模型等技术的研究,都成为计算语言学的标准研究实践活动。再次是高性能计算机系统发展的趋势。高性能计算机系统的广泛应用,为机器学习系统的大规模训练和效能发挥提供了有利的条件。
由于建设可靠的标注语料库花费高且难度大,这促使我们更多地使用无监督的机器学习技术,让计算机自动地从浩如烟海的语料库中获取准确的语言知识。因此,机器词典和大规模语料库的建设成为当前计算语言学的热点。进入21世纪后,传统的机器学习方法进一步发展成为基于神经网络的深度学习方法。这种深度学习方法独立于具体语言,只要语言数据足够多,就可以让计算机自动学习到该语言的各种特征,而且在分析精度上还大大地超过了传统方法。这是在计算语言学历史上获取语言学知识方法的具有革命性意义的变革。
第三, 数学方法越来越受到重视。
使用人工观察和内省的方法,显然不可能从浩如烟海的语料库中获取精确可靠的语言知识,因此必须依靠统计数学的方法。
语言模型是描述自然语言内在规律的数学模型,构造语言模型则是计算语言学研究的核心。语言模型可以分为传统的规则型语言模型、基于统计的语言模型和基于深度学习的语言模型。规则型语言模型是人工编制的语言规则,这些语言规则主要来自语言学家掌握的语言学知识,具有一定的主观性和片面性,难以处理大规模的真实文本。基于统计的语言模型通常是概率模型,计算机借助语言统计模型的概率参数,可以估计出自然语言中语言成分出现的可能性,而不是单纯地通过语言学规则判断,因此更加客观和全面。基于深度学习的语言模型完全不需要人工设计语言特征,计算机从大数据中自动地获取语言特征。这样的基于深度学习的语言模型比概率性的语言统计模型更胜一筹,机器学习的效果大大提高了。
目前,计算语言学中的深度学习语言模型已经相当成熟,对研究者数学水平的要求也就更高了。
第四,自然语言处理中越来越重视词汇的作用,出现了强烈的“词汇主义”倾向。
词汇是话语实现的主要载体,语法的作用仅仅是管理意义、组合成分和构筑词项。这种强调词汇作用的倾向,称为“词汇主义”(lexicalism),已经对计算语言学产生较大影响。
自然语言中充满歧义,而这个问题的解决不仅与概率和结构有关,还往往与词汇的特性有关,必须依靠词汇知识解决。事实证明,尽管在计算语言学中使用了概率的方法,但在遇到词汇依存问题时往往显得捉襟见肘,因此还需要探索其他的改进途径,特别是在概率语法中引入词汇信息。
当前,词汇知识库的建设获得了广泛的关注。各种语法知识库和语义知识库的建设,都反映了这种强烈的“词汇主义”倾向。
第五,多语言在线自然语言处理技术迅猛发展。随着网络技术的进步,互联网逐渐变成一个多语言的网络世界,互联网上的机器翻译、信息检索和信息抽取等计算语言学研究的需要变得更加紧迫。
在这个“信息爆炸”的时代,科学技术的发展日新月异,新的信息和知识喷涌而现。同时,由于互联网上非英语使用者的人数飞速增长,英语在互联网上独霸天下的局面已被彻底打破,互联网确实已经变成了“多语言的网络世界”。“多语言”这个特性使得互联网变得丰富多彩,同时也造成了不同语言之间交流和沟通的困难。因此,互联网上不同语言之间的翻译当然也就越来越迫切了。除了进行单语言的计算语言学研究之外,大力开展多语言的计算语言学研究也愈发必要,如何沟通网络上不同的自然语言也就成为计算语言学研究的重要课题。
在这样的新形势下,计算语言学这个学科的交叉性和边缘性显得更加突出,计算语言学研究者更不可能将自己只局限于某一个专业的狭窄领域。如果不从其他相关的学科吸收研究成果和研究方法,计算语言学研究必将裹足不前。计算语言学发展的现实需要,已经给相关学者提出了更高更广的要求。
网友评论