美文网首页
小鹤双拼词库分析

小鹤双拼词库分析

作者: 李2牛 | 来源:发表于2018-04-09 23:11 被阅读0次

    前言: 数据挖掘这门课的大作业是上交一份数据挖掘的案例.于是乎我决定对比分析一下小鹤音形和正常全拼的码表.
    首先是小鹤双拼的码表分析转换

    1. 概况
      查看行数和字符数,bash命令
    wc -l xhupdict # 查看行数
    wc -c xhupdict #查看总的字符数
    
    小鹤的码表数量统计
    码表的一瞥
    1. 简单处理
      经观察发现小鹤的码表组织使用的是tab制表符,所以可以用以下命令并导出纯净的词库.
    cut -f1 xhupdict > pureChineseVocabularyOfXhup.txt  # 导出目标词汇
    #关于如何知道是不是制表符组织的,或者想查看文本的特殊字符可以使用下列命令
    sed -n l xhupdict|more #如果文本太长,记得使用管道结合more命令查看,不然满屏的输出是在毫无意义
    
    导出的目标词汇
    sed命令查看文本组织方式

    查看冗余的行

    sed -n '1,10'p pureChineseVocabularyOfXhup.txt 
    sed '1,12'd pureChineseVocabularyOfXhup.txt 
    #突然发现这个sed命令的删除只是在输出显示的删除不是对文本的实际操作
    #那试试用它的替换操作
    sed '1,12s/.*//g' pureChineseVocabularyOfXhup.txt  #终于成功删除了前几行,但是总是只在输出生效.使用重定向就可以了
    #再或者直接打开 vim 一个命令 12dd 废行就烟消云散了
    #还是使用vim更加便捷无论是使用替换命令还是按键剪切命令都比sed好用.如果不用重定向,感觉sed更适合抽样观察,或者说sed是一种探针,用于查看文本的细节便于我们决定使用什么样的手段去处理文本
    

    效果如图: sed对于这种文本真是小菜一碟,根本犯不着上python


    删除冗余行的效果

    同理分离编码部分

    cut -f2 xhupdict >pureEncodingOfXhup.txt 
    
    分离后当前目录文件列表
    1. 文本深加工
      且搁笔

    相关文章

      网友评论

          本文标题:小鹤双拼词库分析

          本文链接:https://www.haomeiwen.com/subject/loxdcftx.html