美文网首页NLP
自然语言处理——7.3 汉语自动分词概要

自然语言处理——7.3 汉语自动分词概要

作者: SpareNoEfforts | 来源:发表于2018-10-08 20:56 被阅读41次

汉语自动分词的重要性

  • 自动分词是汉语句子分析的基础
  • 词语的分析具有广泛的应用(词频统计,词典编纂,文章风格研究等)
  • 文献处理以词语为文本特征
  • “以词定字、以词定音”,用于文本校对、同音字识别、多音字辨识、简繁体转换

汉语自动分词中的主要问题

1. 汉语分词规范问题(《信息处理用限定汉语分词规范(GB13715)》)

- 汉语中什么是词?两个不清的界限:
(1) 单字词与词素,如:新华社25日讯
(2) 词与短语,如:花草,湖边,房顶,鸭蛋,小鸟,担水,一层,翻过?

2. 歧义切分字段处理
2.1 交集型歧义
  • 定义:链长

一个交集型切分歧义所拥有的交集串的集合称为交集串链,它的个数称为链长。



“结合”、“合成”、“成分”和“分子”均构成词,交集串的集合为{合,成,分},因此,链长为3。

2.2 组合型歧义

梁南元(1987)曾经对一个含有48,092字的自然科学、社会科学样本进行了统计,结果交集型切分歧义有518个,多义组合型切分歧义有42个。据此推断,中文文本中切分歧义的出现频度约为1.2次/100字,交集型切分歧义与多义组合型切分歧义的出现比例约为12:1。

3. 未登录词的识别
3.1 人名、地名、组织机构名等,例如:

盛中国,张建国,李爱国,蔡国庆,令计划;高升,高山,夏天,温馨,武夷山,时光;彭太发生,朱李月华;赛福鼎· 艾则孜,爱新觉罗· 溥仪;平川三太郎,约翰· 斯特朗

3.2 新出现的词汇、术语、个别俗语等,例如:

博客,非典,禽流感,恶搞,微信,给力,失联

汉语自动分词的基本原则

1. 语义上无法由组合成分直接相加而得到的字串应该合并为一个分词单位。(合并原则)

例如:不管三七二十一(成语),或多或少(副词片语),十三点(定量结构),六月(定名结构),谈谈(重叠结构,表示尝试),辛辛苦苦(重叠结
构,加强程度),进出口(合并结构)

2. 语类无法由组合成分直接得到的字串应该合并为一个分词单位。(合并原则)

(1)字串的语法功能不符合组合规律,如:好吃,好喝,好听,好看等
(2)字串的内部结构不符合语法规律,如:游水等

汉语自动分词的辅助原则

操作性原则,富于弹性,不是绝对的。

1. 有明显分隔符标记的应该切分之 (切分原则)

分隔标记指标点符号或一个词。
如: 上、下课 一> 上/ 下课
洗了个澡 一> 洗/ 了/ 个/ 澡

2. 附着性语(词)素和前后词合并为一个分词单位(合并原则)

例如:
“吝”是一个附着语素,“不吝”、“吝于”等合并成一个词;
“员”:检查员、邮递员、技术员等;
“化”:现代化、合理化、多变化、民营化等。

3. 使用频率高或共现率高的字串尽量合并为一个分词单位(合并原则)

如:“进出”、“收放”(动词并列);“大笑”、“改称”(动词偏正);“关门”、“洗衣”、“卸货”(动宾结构);“春夏秋冬”、“轻重 缓急”、“男女”(并列结构);“象牙”(名 词偏正);“暂不”、“毫不”、“不再”、“早已”(副词并列)等

4. 双音节加单音节的偏正式名词尽量合并为一个分词单位(合并原则)

如:“线、权、车、点”等所构成的偏正式名词:“国际线、分数线、贫困线”、“领导权、发言权、知情权”、“垃圾车、交通车、午餐车”、“立足
点、共同点、着眼点”等。

5. 双音节结构的偏正式动词应尽量合并为一个分词单位(合并原则)

本原则只适合少数偏正式动词,如:“紧追其后”、“组建完成”等,不适合动宾及主谓式复合动词。

6. 内部结构复杂、合并起来过于冗长的词尽量切分(切分原则)

(1) 词组带接尾词
太空/ 计划/ 室、塑料/ 制品/ 业
(2) 动词带双音节结果补语
看/ 清楚、讨论/ 完毕
(3) 复杂结构:自来水/ 公司、中文/ 分词/ 规范/ 研
究/ 计划
(4) 正反问句:喜欢/ 不/ 喜欢、参加/ 不/ 参加
(5) 动宾结构、述补结构的动词带词缀时
写信/ 给、取出/ 给、穿衣/ 去
(6) 词组或句子的专名,多见于书面语,戏剧名、歌曲名等
鲸鱼/ 的/ 生/ 与/ 死、那/ 一/ 年/ 我们/都/ 很/ 酷
(7)专名带普通名词
胡/ 先生、京沪/ 铁路

相关文章

  • 自然语言处理——7.3 汉语自动分词概要

    汉语自动分词的重要性 自动分词是汉语句子分析的基础 词语的分析具有广泛的应用(词频统计,词典编纂,文章风格研究等)...

  • 中文分词工具及中文语料资源

    关键词: 中文分词;分词;自然语言处理;中文语料 最近要做中文自然语言处理相关任务,牵涉到使用中文分词工具和相关算...

  • 中文常用停用词表

    在进行汉语自然语言处理时候,分词是必不可少的环节,但是在实际的自然语言中,有很多的非实意词语或者其他并没有实际作用...

  • <<数学之美>> part1

    摘要 : [自然语言处理] [基于规则] [基于统计] [统计语言模型] [马尔科夫] [分词] 自然语言处理--...

  • 自然语言处理基本流程与应用

    自然语言处理是人工智能皇冠上的明珠 自然语言处理的基本流程: 分词(Segment) 命名实体识别(NER) 词性...

  • python 结巴分词学习

    结巴分词(自然语言处理之中文分词器) jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可...

  • 1. jieba中文处理

    jieba中文处理 1. 中文分词 jieba是一个在中文自然语言处理中用的最多的工具包之一,它以分词起家,目前已...

  • 中文分词方法

    中文分词是中文自然语言处理的基础,现代语言分析处理算法基本是以词为单位进行计算的。 1、词典匹配 词典匹配是分词最...

  • 客服问答短文本分类实践

    本文的应用场景例子是针对短文本的。 1. 分词 分词是自然语言处理中最基础的功能,分词功能的好坏对于之后的词法分析...

  • 基于Trie 树实现简单的中文分词

    中文分词简介 中文分词是中文自然语言处理的基础,中文分词的正确率如何直接影响后续的词性标注(也有些词性标注算法不需...

网友评论

    本文标题:自然语言处理——7.3 汉语自动分词概要

    本文链接:https://www.haomeiwen.com/subject/cptsaftx.html