美文网首页
数学为什么这么有用

数学为什么这么有用

作者: 我的邻居是腹黑 | 来源:发表于2019-11-03 20:37 被阅读0次

    人们一开始总以为,最好的汉字输入法就是最简单的输入法,平均打一个字敲击的键盘次数越少,那这个输入法就越好,但历史又一次证明,这种经验上的直觉并不可靠。比如拼音输入法中的双拼和全拼,在双拼输入法中,每个声母和韵母都只用一个键表示,而全拼输入法则要求打出整个拼音。

    比如“ao”这个韵母,在双拼中只需要按“k”这个键,而全拼则需要按“a”和“o”两个键。所以双拼敲击键盘的次数会天然地比全拼短,看起来更高效一些。但吴军说,双拼法看似减少了敲击键盘的次数,但输入一点也不快。为什么呢?因为汉语的声母韵母加起来一共有50多个,但是键盘上只有26个字母键,所以很多韵母就需要共享一个字母键,这就会导致,打字的人要从更多的候选汉字里找到自己想打的字;而且双拼的方法不自然,比全拼多出来一道拆分声母和韵母的过程,你需要背下来哪个韵母是哪个按键;最后,很多南方人分不清前后鼻音和卷平舌音,结果就导致翻了好几页都找不到自己想打的字,其实原因是一开始就打错了声母或者韵母。

    这一系列问题都证明,追求更简单高效的双拼输入法,实际效率并不高,五笔输入法也是类似的情况。上世纪90年代时,中国出现的输入法种类一度多达上千种,但这些输入法大多和双拼一样,都把发力点放在了减少敲击次数上,都强调自己是最快的。这个方向就走偏了,到了现在,人们几乎全都抛弃了这些输入法,这一批发明人可以说是全军覆没。

    与此同时,全拼输入法得到不断改进。所有汉字全拼的平均长度是2.98,只要能很好地利用上下文的相关性,就能把全拼输入法的平均敲击次数控制在3次以内。那该怎么利用上下文的相关性呢?这里又有人绕过弯路。10年前,人们就是通过不断增加词库,甚至把一整句唐诗当成一个词来解决这个问题。但是统计下来发现,帮助不太大。因为汉语里短字词“一音多字”的情况太多,如果词库非常大,打出来的候选词太多,找到自己想要的那个还是很费时间。吴军说,增大词库,这也是根据经验和直觉的应对方法,就和我们刚刚说的,“在大圆里套小圆,在小圆里套更小的圆”思路一样。

    那最好的解决办法是什么呢?就是借助语言模型。这和第一个重点里说的,计算机处理自然语言的思路比较像,都是利用统计学的原理,来计算出一长串拼音转化成文字的最有可能选项,方便使用者直接打出一大段文字。和之前凭经验行动的解决方法相比,这就是更好的数学模型。

    相关文章

      网友评论

          本文标题:数学为什么这么有用

          本文链接:https://www.haomeiwen.com/subject/goulbctx.html