美文网首页
小鹤双拼词库分析

小鹤双拼词库分析

作者: 李2牛 | 来源:发表于2018-04-09 23:11 被阅读0次

前言: 数据挖掘这门课的大作业是上交一份数据挖掘的案例.于是乎我决定对比分析一下小鹤音形和正常全拼的码表.
首先是小鹤双拼的码表分析转换

  1. 概况
    查看行数和字符数,bash命令
wc -l xhupdict # 查看行数
wc -c xhupdict #查看总的字符数
小鹤的码表数量统计
码表的一瞥
  1. 简单处理
    经观察发现小鹤的码表组织使用的是tab制表符,所以可以用以下命令并导出纯净的词库.
cut -f1 xhupdict > pureChineseVocabularyOfXhup.txt  # 导出目标词汇
#关于如何知道是不是制表符组织的,或者想查看文本的特殊字符可以使用下列命令
sed -n l xhupdict|more #如果文本太长,记得使用管道结合more命令查看,不然满屏的输出是在毫无意义
导出的目标词汇
sed命令查看文本组织方式

查看冗余的行

sed -n '1,10'p pureChineseVocabularyOfXhup.txt 
sed '1,12'd pureChineseVocabularyOfXhup.txt 
#突然发现这个sed命令的删除只是在输出显示的删除不是对文本的实际操作
#那试试用它的替换操作
sed '1,12s/.*//g' pureChineseVocabularyOfXhup.txt  #终于成功删除了前几行,但是总是只在输出生效.使用重定向就可以了
#再或者直接打开 vim 一个命令 12dd 废行就烟消云散了
#还是使用vim更加便捷无论是使用替换命令还是按键剪切命令都比sed好用.如果不用重定向,感觉sed更适合抽样观察,或者说sed是一种探针,用于查看文本的细节便于我们决定使用什么样的手段去处理文本

效果如图: sed对于这种文本真是小菜一碟,根本犯不着上python


删除冗余行的效果

同理分离编码部分

cut -f2 xhupdict >pureEncodingOfXhup.txt 
分离后当前目录文件列表
  1. 文本深加工
    且搁笔

相关文章

  • 小鹤双拼词库分析

    前言: 数据挖掘这门课的大作业是上交一份数据挖掘的案例.于是乎我决定对比分析一下小鹤音形和正常全拼的码表.首先是小...

  • 小鹤双拼词库字符频率分析

    代码请移步Likenttt的github仓库代码有一个小瑕疵:前期以为Shell数组是首个元素下标是从1开始的,所...

  • 小鹤双拼

    今天第一次练习了小鹤双拼,感觉还不错。当然,这篇文章也是用小鹤打出来的。不过,真的好慢啊。待会吃什么呢?updat...

  • 小鹤双拼

    小鹤双拼学习 下面先介绍下小鹤双拼。 在使用拼音输入法录入文字的时候,主要存在的问题有两个: 一个是重码的问题,早...

  • 小鹤双拼

    介绍:https://www.flypy.com/[https://www.flypy.com/]双拼练习:htt...

  • 苹果手机讯飞输入法如何设置小鹤双拼

    本文主要介绍苹果手机使用讯飞输入法如何设置小鹤双拼的方法步骤,小鹤双拼是双拼输入方案的其中一种。 工具选择 1,苹...

  • 2020-03-27

    iRime输入法上传小鹤双拼方案教程 一. 准备工作 1.下载小鹤双拼,ios系统的挂接文件。下载地址:http:...

  • 像弹琴般打字——快速入门小鹤双拼

    本文约3000字,请耐心阅读。 提醒:小鹤双拼只是众多双拼输入方案的一种,此外还有微软双拼、自然码等双拼方案,但练...

  • 小鹤双拼练习

    无题 北岛 永远如此 火,是冬天的中心 当树林燃烧 只有那不肯围拢的石头 狂吠不已 挂在鹿角上的钟停了 生活是一次...

  • 小鹤双拼速成

    亲身经历,2018.7.30 从中午12点到16点,中间午饭 效果:基本拼对但速度波动较大,总体一般,亮点也有,总...

网友评论

      本文标题:小鹤双拼词库分析

      本文链接:https://www.haomeiwen.com/subject/loxdcftx.html