美文网首页R - tips
有道单词本数据检索方法

有道单词本数据检索方法

作者: 董八七 | 来源:发表于2018-05-10 11:21 被阅读3次

    用有道保存了一些查询过的单词和词组,想要对这些内容进行检索。

    数据清理

    1. 导出单词本为文本文件,在notepad中打开。
    2. 合并行 #因为一个entry分到了3-5行
      • 替换\r\n
      • 替换\n
    3. 去掉entry名 #导出的每个条目前都有排序编号
      • 替换\d{1,},
    4. 替换连续的多个空格为单个空格
    5. 去掉音标 #在R中会以乱码显示
      • 替换[.*]

    导入R

    library(tidyverse)
    vocab <- readLines("input/vocabulary_youdao.txt", encoding = "UTF-8") %>% as.tibble
    
    # extrac word according a pattern
    d_ex_vocab <- function(patt) {
      library(magrittr)
      extrt <- stringr::str_extract(vocab$value, patt)
      dong_word_extract <- vocab[!is.na(extrt), ]
      if (dim(dong_word_extract)[1] == 0) 
        stop("No word extracted, plz check the spell!")
      write.csv(dong_word_extract, paste0("output/", patt, ".csv"), quote = F, row.names = F)
      return(dong_word_extract)
    }
    
    ex_word <- d_ex_vocab("取决于")
    

    相关文章

      网友评论

        本文标题:有道单词本数据检索方法

        本文链接:https://www.haomeiwen.com/subject/mnlzrftx.html