美文网首页笃行日志简友广场想法
语言信息的歧义需要我们不断修正。2020-03-25

语言信息的歧义需要我们不断修正。2020-03-25

作者: 半学斋_李木子 | 来源:发表于2020-03-25 23:56 被阅读0次

    笃行百天日志 - 025

    当我们谈完了可以利用统计语言模型进行自然语言处理,而这些语言模型是建立在词的基础上的,因为词是表达语义的最小单位。对于西方拼音语言来讲,词之间有明确的分界符( Delimit),统计和使用语言模型非常直接。

    而对于中、日、韩、泰等语言,词之间没有明确的分界符。因此,首先需要对句子进行分词,才能做进一步的自然语言处理。

    “中国航天官员应邀到美国与太空总署官员开会。”
    分词的输出是用分界符,比如用斜线或者竖线分割的一串词。
    “中国/航天/官员/应邀/到/美国/与/太空/总署/官员/开会。”

    最容易想到的分词方法,也是最简单的办法,就是查字典。但当复杂性提高,出现二义性词时,这个方法就无能为力。

    比如:

    • 发展中国家:正确 —— 发展 - 中 - 国家,错误 —— 发展 - 中 - 国家。
    • 北京大学生:正确 —— 北京 - 大学生,错误 —— 北京大学 - 生。

    语言中的歧义,伴随着语言的发展,困扰了学者上千年。

    在古代,短句和说文解字从根本上讲,就是消除歧义性。各种不同学者的春秋正义或者论语的注释,都是各家按照自己的理解消除歧义性。

    而,利用我们昨天谈到的统计语言模型,计算出各种分词后句子出现的概率,并找出其中概率最大的,就能够找到最好的分词方法。

    在我们实际生活中,沟通的歧义性,经常不知不觉的产生。借鉴数学模型处理自然语言的思维:不同的模型处理结果在于数据的使用与工程实现的精度。而我们的沟通效率和成果,也在于双方沟通信息的有效传收,以及对彼此信息的精确理解。


    100个基本之贰拾伍

    不竞争,不争夺。

    有这样一种说法:为了拿出成果、提高干劲,竞争是必要的。我认为这完全是无稽之谈。因为工作,不是为了比别人站在更有利的位置而做,而是为了把喜悦带给他人。倘若我在相互竞争的环境里工作,一定会果断地让位。说着“您先请”,后退一步。

    祝春安,李木子,
    第025日,以上。


    相关文章

      网友评论

        本文标题:语言信息的歧义需要我们不断修正。2020-03-25

        本文链接:https://www.haomeiwen.com/subject/uenfuhtx.html