美文网首页李氏三拼
rime应用一例:汉字中的“一简对多繁”和“一繁对多简”

rime应用一例:汉字中的“一简对多繁”和“一繁对多简”

作者: 阿森纳里 | 来源:发表于2018-03-24 23:19 被阅读13次

    李氏三拼是借用rime输入法框架实现的,在rime框架中,一个很重要的理念就是字典和词库要以正体汉字为基础,因此李氏三拼采用的全部字典和词库都是正体中文版,在此要感谢imy0823、瑾昀(cokunhui)等大佬的无私奉献。

    为什么要以正体中文为基础呢,众所周知,建国后经过一简字和二简字的改革,大量的繁体汉字以简体形式替代,因此产生了多个繁体字对应一个简体字的现象,我们大陆人没有经过繁体(正体)中文的系统学习,在写繁体字的时候经常会出错,而一般的输入法在进行简体汉字转繁体汉字的时候也经常会犯错,试举两例:

    1. 繁体汉字“故里”、“那裡 ”、“裏面”中的“里裡裏”三字被统一简化为“里”,而一般人只记得繁体的“裏”字或“裡”字,在写正体汉字时,经常会误写作“故裡”、“故裏”等,实际上“裡”、“裏”二字不是“故里”中“里”的繁体字,古代中国本来就有“里”字,意思是有人聚居的地方,“故里”一词没有被简化;


      聖人鄰“裡”
    2. 繁体的汉字“頭髮”、“發財”中的“髮發”二字,统一简化为“发”,但实现上这是两个字,简体中文也可以通过声调加以区分,但如果输入法只进行一对一的简体转繁体的话,就会出错。


      美“發”沙龍

    因此,采用繁体词库,在输入法中进行繁体到简体的转换,比采用简体词库再进行简转繁要容易得多,简转繁因为涉及大量一对多的情况,需要用到OpenCC组件,增加了软件安装包负荷,而且有很多用户并不知道OpenCC组件怎样正确安装,平白增加了不必要的麻烦。因此我打包的配置文件中索性不用OpenCC,以免麻烦。

    我的方案都是基于汉语拼音的音码方案,若要用五笔一类的简体形码输入方案,则必需要用到OpenCC简繁转换。

    和“多繁对一简”类似的是“一繁对多简”。在汉字简化的过程中,除了多个繁体字被简化为同一个简体字的情况外,确实还存在着一个繁体字被拆分成了两个或两个以上简化字的情况,在这种情况下,“简化汉字”有些名不副实,应该叫做“繁化汉字”才正确。

    不过相对来说,“一每对多简”的情况很少,港台媒体已做过相应总结,主要涉及到的汉字如下:

    乾->干/乾,干杯,乾坤
    夥->伙/夥,家伙,获益甚夥
    藉->借/藉,借东西,狼藉
    瞭->了/瞭,了解,瞭望
    麼->么/麽,什么,幺麽
    餘->余/馀,剩余,不遗馀力
    摺->折/摺,折断,摺子
    徵->征/徵,征用,魏徵

    大概就是这几组,相比于一简对多繁来说涉及汉字要少得多。不过在不同的地区,“一繁对多简”包括的范围略有不同,具体请参考“一繁对多简”究竟有几组?

    在rime中,对“一繁对多简”的处理效果也很好。

    一繁对多简举例

    可以看出,繁体状态下的“乾”字对应着简体状态下的“干”和“乾”两个字,因此繁体状态下的第4个候选字“甘”在简体状态下变为第5个候选字。

    相关文章

      网友评论

        本文标题:rime应用一例:汉字中的“一简对多繁”和“一繁对多简”

        本文链接:https://www.haomeiwen.com/subject/hruccftx.html