美文网首页人工智能小白入门
自然语言处理基础技术之词性标注

自然语言处理基础技术之词性标注

作者: yuquanle | 来源:发表于2018-11-25 20:31 被阅读16次

    声明:转载请注明出处,谢谢:https://www.jianshu.com/p/940464a662b0
    另外,更多实时更新的个人学习笔记分享,请关注:


    知乎https://www.zhihu.com/people/yuquanle/columns
    公众号:StudyForAI
    CSDN地址http://blog.csdn.net/m0_37306360


    今天总结一下自然语言处理之词性标注,后附现有比较好的开源实现工具(基于python实现包)~~~


    词性定义

    • 百度百科定义:词性指以词的特点作为划分词类的根据。词类是一个语言学术语,是一种语言中词的语法分类,是以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词进行划分的结果。

    • 维基百科定义:In traditional grammar, a part of speech (abbreviated form: PoS or POS) is a category of words (or, more generally, of lexical items) which have similar grammatical properties.

    • 从组合和聚合关系来说,一个词类是指:在一个语言中,众多具有相同句法功能、能在同样的组合位置中出现的词,聚合在一起形成的范畴。词类是最普遍的语法的聚合。词类划分具有层次性。如汉语中,词可以分成实词和虚词,实词中又包括体词、谓词等,体词中又可以分出名词和代词等。

    词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程,这也是自然语言处理中一项非常重要的基础性工作,所有对于词性标注的研究已经有较长的时间,在研究者长期的研究总结中,发现汉语词性标注中面临了许多棘手的问题。


    中文词性标注的难点

    • 汉语是一种缺乏词形态变化的语言,词的类别不能像印欧语那样,直接从词的形态变化上来判别。

    • 常用词兼类现象严重。《现代汉语八百词》收取的常用词中,兼类词所占的比例高达22.5%,而且发现越是常用的词,不同的用法越多。由于兼类使用程度高,兼类现象涉及汉语中大部分词类,因而造成在汉语文本中词类歧义排除的任务量大。

    • 研究者主观原因造成的困难。语言学界在词性划分的目的、标准等问题上还存在分歧。目前还没有一个统的被广泛认可汉语词类划分标准,词类划分的粒度和标记符号都不统一。词类划分标准和标记符号集的差异,以及分词规范的含混性,给中文信息处理带来了极大的困难。

    词性标注常见方法

    基于规则的词性标注方法

    • 基于规则的词性标注方法是人们提出较早的一种词性标注方法,其基本思想是按兼类词搭配关系和上下文语境建造词类消歧规则。早期的词类标注规则一般由人工构建。

    • 随着标注语料库规模的增大,可利用的资源也变得越来越多,这时候以人工提取规则的方法显然变得不现实,于是乎,人们提出了基于机器学习的规则自动提出方法。

    基于统计模型的词性标注方法

    • 统计方法将词性标注看作是一个序列标注问题。其基本思想是:给定带有各自标注的词的序列,我们可以确定下一个词最可能的词性。

    • 现在已经有隐马尔可夫模型(HMM)或条件随机域(CRF)等统计模型了,这些模型可以使用有标记数据的大型语料库进行训练,而有标记的数据则是指其中每一个词都分配了正确的词性标注的文本。

    基于统计方法与规则方法相结合的词性标注方法

    • 理性主义方法与经验主义相结合的处理策略一直是自然语言处理领域的专家们不断研究和探索的问题,对于词性标注问题当然也不例外。

    • 这类方法的主要特点在于对统计标注结果的筛选,只对那些被认为可疑的标注结果,才采用规则方法进行歧义消解,而不是对所有情况都既使用统计方法又使用规则方法。

    基于深度学习的词性标注方法

    • 可以当作序列标注的任务来做,目前深度学习解决序列标注任务常用方法包括LSTM+CRF、BiLSTM+CRF等。

    **词性标注任务数据集 **

    词性标注工具推荐

    最新研究进展看这里https://github.com/sebastianruder/NLP-progress/blob/master/english/part-of-speech_tagging.md

    参考:
    1.统计自然语言处理

    相关文章

      网友评论

        本文标题:自然语言处理基础技术之词性标注

        本文链接:https://www.haomeiwen.com/subject/oakmqqtx.html