汉字处理的场景
汉字、汉语词汇的处理是自然语言处理技术的基础,主要应用场景包括:
输入法、输入提示、语音识别、文字朗读、繁简转换、文字考古
- 拼音
汉字是是汉语体系中最小的发音单位,语音识别技术要想成熟,就需要处理好以下的问题
- 拼音转汉字
不少同学都选择拼音输入法打字,敲拼音给出汉字,拼音输入法基本上都支持全拼、简拼的形式;
另外,很多网站的搜索框也支持用户输入拼音,给出汉字的结果候选项这种自动提示的功能。
还有,同一个汉字,方言与普通话的发音存在着差异,举个例子,普通话的脚(jiao),药(yao), 在河南话里就是脚(juo),药(yuo),这个例子还是有一定的相似性的,而还有更多完全不一样的,例如普通话-牛(niu),河南话-牛(ou),吴侬语、粤语我不懂,但差异应该会更大。
-
汉字转拼音
有些博客网站,会根据文章标题生成一个标题对应拼音的url, 有助于SEO加分 -
同音字的谐音效果
例如:河蟹-和谐。笑话、歇后语、文学作品中常见、也是祖国网民应付网络审查的一种方式。 -
文学押韵
春晓,押韵ao
锄禾,押韵u
有人根据这个开发出能够“自动写诗”的程序。 -
偏旁部首
- 汉字是象形文字,因此相同偏旁部首的字代表的事物往往具备一定的相似性,例如常见的草字头,木字旁,金字旁等等。
- 拼音不好的同学,通常用五笔输入中文,五笔就是基于偏旁部首等字形的;
- 繁简转换
- 在历史的发展过程中,汉字的形状发生过变化,甲骨文-金鼎文-小篆等等,有文字变迁的记录数据,对于考古非常有帮助;
- 繁体字简化,是汉字最近一次经历的非常剧烈的变化,简体字主要在大陆应用,而繁体字则主要在港澳台以及海外。
- 有没有多个繁体字简化成一个简体字的case?
- 需要注意的是,繁简转换,很多是词语粒度的,例如台湾常说的“網路”,在简体中应该是“网络”,就不能只是简单的“網-网”转换了。
汉字在知识图谱中的描述
需要的建立的数据集:
- 字母
需要的字段:大小写、中文发音、英文-法语-拉丁? - 汉语声母、韵母(拆开,还是放一起?拆开?)
需要的字段:
http://baike.baidu.com/view/24374.htm
http://baike.baidu.com/view/147736.htm - 汉语拼音
需要的字段:拼音、声母、韵母、口型动画
字母-声母/韵母-拼音,通过json-ld方式做关联
http://www.zybang.com/question/2597d63aa38c8d8debcd5e6c4216d9e1.html - 汉字笔画
需要的字段:笔画名称,图形
http://baike.baidu.com/view/421765.htm - 汉字偏旁部首
需要的字段:名称,图形,所包含的笔画?
笔画-偏旁部首 通过 json-ld关联
http://baike.baidu.com/view/1433394.htm - 汉字
需要的字段:简体,拼音,声调,偏旁部首,繁体,各种古文字形式
一个汉字引申出来的东西可真不少,全部搞定后,我就可以去小学当语文课代表了,哦也~
网友评论