命名实体(Named Entity, NE) (专有名词)
人名(中国人名和外国译名)、地名、组织机构名、数字、日期、货币数量
其他新词
专业术语、新的普通词汇等。
关于中文姓名
• 台湾出版的《中国姓氏集》收集姓氏 5544 个,其中,单姓 3410 个,复姓 1990 个,3字姓 144 个
• 中国目前仍使用的姓氏共 737 个,其中,单姓 729个,复姓 8 个
• 根据我们收集的 300 万个人名统计,姓氏有974个, 其中,单姓 952个,复姓 23 个,300万人名中出现汉字4064个。 [曹文洁,2002]
中文姓名识别的难点
- 名字用字范围广,分布松散,规律不很明显。
- 姓氏和名字都可以单独使用用于特指某一人。
- 许多姓氏用字和名字用字(词)可以作为普通用字或词被使用, 例如,姓氏为普通词:于(介词),张(量词),江(名词)等; 名字为普通词:建国,国庆,胜利,文革,计划等,全名也是普通词汇,如:万里,温馨,高山,高升,高飞,周密, 江山,夏天等。
- 缺乏可利用的启发标记。
中文姓名识别方法
- 姓名库匹配,以姓氏作为触发信息,寻找潜在的名字。
- 计算潜在姓名的概率估值及相应姓氏的姓名阈值(threshold value),根据姓名概率评价函数和修饰规则对潜在的姓名进行筛选。
1. 计算概率估计值
设姓名,其中表示姓,分别表示名字首字和名字尾字。分别用下列公式计算姓氏和名字的使用频率:
字串可能为姓名的概率估值:
2. 确定阈值
姓氏构成姓名的最小阈值:
3. 设计评估函数
姓名的评价函数:
对于特定的姓氏 通过训练语料得到一阈值 ,当 大于 时,该识别的汉字串确定为中文姓名。
4. 使用修饰规则:
如果姓名前是一个数字,或者与“.”字符的距离小于 2个字节,则否定此姓名。
5. 确定潜在的姓名边界
-
左界规则
若潜在姓名前面是一称谓,或一标点符号,或者潜在姓名在句首,或者潜在的姓名的 姓氏使用频率为100%,则姓名的左界确定。 -
右界规则
若姓名后面是一称谓,或者是一指界动词(如,说,是,指出,认为等)或标点符号,或者潜在的姓名在句尾,或者潜在姓名的尾字使用频率 为100%,则姓名的右界确定。
6. 校正潜在的姓名
依据:含重合部分的潜在姓名不可能同时成立。利用各种规则消除冲突的潜在姓名。
中文地名识别方法
1. 困难
- 地名数量大,缺乏明确、规范的定义。《中华人民共和国地名录》(1994)收集88026个,不包括相当一部分街道、胡同、村庄等小地方的名称。
- 真实语料中地名出现情况复杂。如地名简称、地名用词与其他普通词冲突、地名是其他专用名词的一部分,地名长度不一等。
2. 基本资源
- 建立地名资源知识库
-地名库、地名用字库、地名用词库 - 建立识别规则库
-筛选规则、确认规则、否定规则
3. 基本方法
- 统计模型
- 通过训练语料选取阈值
- 地名初筛选
- 寻找可以利用的上下文信息
- 利用规则进一步确定地名
中文机构名称的识别
1. 中文机构名称的构成
- · 词法角度:偏正式(修饰格式)的复合词
{名词|形容词|数量词|动词} + 名词 - 句法角度:“定语+名词性中心语”型的名词短语(定名型短语)
- 中心语:机构称呼词,如:大学,学院,研究所,学会,公司等。
2. 中文机构名称的类型
- 地名,如:北京大学,武汉大学
- 人名,如:中山大学,哈佛大学
- 学科、专业和部门系统,如:公安部,教育委员会
- 研究、生产或经营等活动的对象,如:软件研究所,卫星制造厂
- 上述情况的综合,如:白求恩医科大学
- 大机构、团体、组织和职业的名称,如:中国人民解放军洛阳外国语学院,中国发明家学会等
- 专造的机构名,如:复旦大学,四通公司,微软研究院
- 创办、工作的方式,如:某某股份公司,中央电视大学
3. 机构名称识别方法
• 找到一机构称呼词
• 根据相应规则往前逐个检查名词作为修饰名词的合法性,直到发现非法词
• 如果所接受的修饰词同机构称呼词构成一个合法的机构名称,则记录该机构名称
• 统计模型
4. 双语实体自动识别与对齐的联合模型
基于神经网络的命名实体识别方法
网友评论