美文网首页
中文分词与命名实体

中文分词与命名实体

作者: 杨伟锋poplar | 来源:发表于2021-03-29 15:57 被阅读0次

    【2020年11月分享】

    背景介绍

    1. 计算机、互联网服务越来越多的改变着人们的生活;
    2. 信息时代,信息消费需求的数量越来越大,精度越来越高;
    3. 信息的采集、加工、传递等技术提升需求迫切;
    4. 信息大多以文字形式体现,文字处理,英文具有天然优势和既有技术领先优势,中文处理因为汉字语言的特殊性并没有外文那样简单,还存在很多的挑战。

    中文信息处理是自然语言信息处理的一个分支,具体内容包括对字、词、句、篇章的分析、理解和生成等方面的技术。而中文分词和实体识别则是中文信息处理的基础和最常用的技术,本文重点是对一些基本感念做以介绍。

    中文分词

    把中文的汉字序列切分为有意义的词序列。

    • 什么叫词
      最小的语义单位
    • 歧义分类
      (1)交叉歧义
      例如: “技术和服务” 中的 “和服”, “南京市长江大桥” 中的 “市长”
      (2)组合歧义
      例如: “产量三年中将增长两倍”,“馒头好吃?那是面的质量好”
      (3)真歧义
      例如: “白天鹅在湖里游泳”,“乒乓球拍卖完了”
    • 特殊词
      (1)新词
      随着时代发展新造或新生词语,例如:蜗居,微博
      (2)未登录词
      表达多样、自由,无法依靠词典收录解决的词类,例如:周杰伦,中新药业,樱桃沟
      (3)音译词
      例如: 奥巴马,阿姆斯特丹
    • 分类体系
      (1)词性分类
      名、动、形、数、量、代、副
      (2)用途分类
      实词、名词、动词、形容词、虚词、副词、代词、叹词
      (3)应用分类
      人名、地名、机构名、数量词、时间词等

    命名实体

    文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。

    • 常见命名实体
      人名、机构名、地名、产品名、时间、日期、货币和百分比
    • 命名实体的识别
      命名实体识别的过程通常包括两部分
      (1)实体边界识别;
      (2) 确定实体类别(人名、地名、机构名或其他)。
    • 命名实体的属性:
      各类实体属性不同,如:人名,包括年龄、身高、工作单位、职务、所属行业等
    • 常见学术分类
      (1)三大类:实体类、时间类、数字类
      (2)七小类:人名、机构名、地名、时间、日期、货币、百分比

    中文分词准确率问题

    • 词语切分
      (1)歧义处理:交叉歧义、组合歧义
      (2)未登录词识别:人名识别、机构名识别、地名识别、数量词识别、时间词识别
      (3)新词识别:同现统计
    • 词彩标注
      词的感情色彩标注,一般分为三类:褒义、贬义、中性,也就是我们现在在舆情应用中经常提到情感分析模型的正面、负面、中性的基础
    • 词性和词义标准的准确性

    命名实体的识别难点

    • 实体边界
      确定命名实体在文本中的边界,给出其类型
    • 属性标注
      通过属性表达识别,文本挖掘,给命名实体标注其重要属性,例如:人名 对应的重要属性,机构名 对应的重要属性
    • 关系构建
      指命名实体与命名实体之间 或 命名实体与其他词的关系建立,例如:丁磊 与 网易公司,丁磊 与 互联网 ,狗不理包子 与 天津

    中文信息技术体系

    image

    分词效果示例

    image
                                                      .END.

    相关文章

      网友评论

          本文标题:中文分词与命名实体

          本文链接:https://www.haomeiwen.com/subject/saubhltx.html