美文网首页
知识图谱--汉字

知识图谱--汉字

作者: 高天蒲 | 来源:发表于2016-02-16 19:58 被阅读666次

    汉字处理的场景

    汉字、汉语词汇的处理是自然语言处理技术的基础,主要应用场景包括:
    输入法、输入提示、语音识别、文字朗读、繁简转换、文字考古

    1. 拼音
      汉字是是汉语体系中最小的发音单位,语音识别技术要想成熟,就需要处理好以下的问题
    • 拼音转汉字
      不少同学都选择拼音输入法打字,敲拼音给出汉字,拼音输入法基本上都支持全拼、简拼的形式;
      另外,很多网站的搜索框也支持用户输入拼音,给出汉字的结果候选项这种自动提示的功能。
      还有,同一个汉字,方言与普通话的发音存在着差异,举个例子,普通话的脚(jiao),药(yao), 在河南话里就是脚(juo),药(yuo),这个例子还是有一定的相似性的,而还有更多完全不一样的,例如普通话-牛(niu),河南话-牛(ou),吴侬语、粤语我不懂,但差异应该会更大。
    1. 汉字转拼音
      有些博客网站,会根据文章标题生成一个标题对应拼音的url, 有助于SEO加分

    2. 同音字的谐音效果
      例如:河蟹-和谐。笑话、歇后语、文学作品中常见、也是祖国网民应付网络审查的一种方式。

    3. 文学押韵
      春晓,押韵ao
      锄禾,押韵u
      有人根据这个开发出能够“自动写诗”的程序。

    4. 偏旁部首

    • 汉字是象形文字,因此相同偏旁部首的字代表的事物往往具备一定的相似性,例如常见的草字头,木字旁,金字旁等等。
    • 拼音不好的同学,通常用五笔输入中文,五笔就是基于偏旁部首等字形的;
    1. 繁简转换
    • 在历史的发展过程中,汉字的形状发生过变化,甲骨文-金鼎文-小篆等等,有文字变迁的记录数据,对于考古非常有帮助;
    • 繁体字简化,是汉字最近一次经历的非常剧烈的变化,简体字主要在大陆应用,而繁体字则主要在港澳台以及海外。
    • 有没有多个繁体字简化成一个简体字的case?
    • 需要注意的是,繁简转换,很多是词语粒度的,例如台湾常说的“網路”,在简体中应该是“网络”,就不能只是简单的“網-网”转换了。

    汉字在知识图谱中的描述

    需要的建立的数据集:

    1. 字母
      需要的字段:大小写、中文发音、英文-法语-拉丁?
    2. 汉语声母、韵母(拆开,还是放一起?拆开?)
      需要的字段:
      http://baike.baidu.com/view/24374.htm
      http://baike.baidu.com/view/147736.htm
    3. 汉语拼音
      需要的字段:拼音、声母、韵母、口型动画
      字母-声母/韵母-拼音,通过json-ld方式做关联
      http://www.zybang.com/question/2597d63aa38c8d8debcd5e6c4216d9e1.html
    4. 汉字笔画
      需要的字段:笔画名称,图形
      http://baike.baidu.com/view/421765.htm
    5. 汉字偏旁部首
      需要的字段:名称,图形,所包含的笔画?
      笔画-偏旁部首 通过 json-ld关联
      http://baike.baidu.com/view/1433394.htm
    6. 汉字
      需要的字段:简体,拼音,声调,偏旁部首,繁体,各种古文字形式

    一个汉字引申出来的东西可真不少,全部搞定后,我就可以去小学当语文课代表了,哦也~

    相关文章

      网友评论

          本文标题:知识图谱--汉字

          本文链接:https://www.haomeiwen.com/subject/nltpkttx.html