语言信息的歧义需要我们不断修正。2020-03-25

作者: 半学斋_李木子 | 来源:发表于2020-03-25 23:56 被阅读0次

当我们谈完了可以利用统计语言模型进行自然语言处理，而这些语言模型是建立在词的基础上的，因为词是表达语义的最小单位。对于西方拼音语言来讲，词之间有明确的分界符（ Delimit），统计和使用语言模型非常直接。

而对于中、日、韩、泰等语言，词之间没有明确的分界符。因此，首先需要对句子进行分词，才能做进一步的自然语言处理。

“中国航天官员应邀到美国与太空总署官员开会。”
分词的输出是用分界符，比如用斜线或者竖线分割的一串词。
“中国/航天/官员/应邀/到/美国/与/太空/总署/官员/开会。”

最容易想到的分词方法，也是最简单的办法，就是查字典。但当复杂性提高，出现二义性词时，这个方法就无能为力。

比如：

语言中的歧义，伴随着语言的发展，困扰了学者上千年。

在古代，短句和说文解字从根本上讲，就是消除歧义性。各种不同学者的春秋正义或者论语的注释，都是各家按照自己的理解消除歧义性。

而，利用我们昨天谈到的统计语言模型，计算出各种分词后句子出现的概率，并找出其中概率最大的，就能够找到最好的分词方法。

在我们实际生活中，沟通的歧义性，经常不知不觉的产生。借鉴数学模型处理自然语言的思维：不同的模型处理结果在于数据的使用与工程实现的精度。而我们的沟通效率和成果，也在于双方沟通信息的有效传收，以及对彼此信息的精确理解。

不竞争，不争夺。

有这样一种说法：为了拿出成果、提高干劲，竞争是必要的。我认为这完全是无稽之谈。因为工作，不是为了比别人站在更有利的位置而做，而是为了把喜悦带给他人。倘若我在相互竞争的环境里工作，一定会果断地让位。说着“您先请”，后退一步。

祝春安，李木子，
第025日，以上。

网友评论

本文标题：语言信息的歧义需要我们不断修正。2020-03-25

本文链接：https://www.haomeiwen.com/subject/uenfuhtx.html

语言信息的歧义需要我们不断修正。2020-03-25