笃行百天日志 - 025
当我们谈完了可以利用统计语言模型进行自然语言处理,而这些语言模型是建立在词的基础上的,因为词是表达语义的最小单位。对于西方拼音语言来讲,词之间有明确的分界符( Delimit),统计和使用语言模型非常直接。
而对于中、日、韩、泰等语言,词之间没有明确的分界符。因此,首先需要对句子进行分词,才能做进一步的自然语言处理。
“中国航天官员应邀到美国与太空总署官员开会。”
分词的输出是用分界符,比如用斜线或者竖线分割的一串词。
“中国/航天/官员/应邀/到/美国/与/太空/总署/官员/开会。”
最容易想到的分词方法,也是最简单的办法,就是查字典。但当复杂性提高,出现二义性词时,这个方法就无能为力。
比如:
- 发展中国家:正确 —— 发展 - 中 - 国家,错误 —— 发展 - 中 - 国家。
- 北京大学生:正确 —— 北京 - 大学生,错误 —— 北京大学 - 生。
语言中的歧义,伴随着语言的发展,困扰了学者上千年。
在古代,短句和说文解字从根本上讲,就是消除歧义性。各种不同学者的春秋正义或者论语的注释,都是各家按照自己的理解消除歧义性。
而,利用我们昨天谈到的统计语言模型,计算出各种分词后句子出现的概率,并找出其中概率最大的,就能够找到最好的分词方法。
在我们实际生活中,沟通的歧义性,经常不知不觉的产生。借鉴数学模型处理自然语言的思维:不同的模型处理结果在于数据的使用与工程实现的精度。而我们的沟通效率和成果,也在于双方沟通信息的有效传收,以及对彼此信息的精确理解。
100个基本之贰拾伍
不竞争,不争夺。
有这样一种说法:为了拿出成果、提高干劲,竞争是必要的。我认为这完全是无稽之谈。因为工作,不是为了比别人站在更有利的位置而做,而是为了把喜悦带给他人。倘若我在相互竞争的环境里工作,一定会果断地让位。说着“您先请”,后退一步。
祝春安,李木子,
第025日,以上。
网友评论