美文网首页R - tips
有道单词本数据检索方法

有道单词本数据检索方法

作者: 董八七 | 来源:发表于2018-05-10 11:21 被阅读3次

用有道保存了一些查询过的单词和词组,想要对这些内容进行检索。

数据清理

  1. 导出单词本为文本文件,在notepad中打开。
  2. 合并行 #因为一个entry分到了3-5行
    • 替换\r\n
    • 替换\n
  3. 去掉entry名 #导出的每个条目前都有排序编号
    • 替换\d{1,},
  4. 替换连续的多个空格为单个空格
  5. 去掉音标 #在R中会以乱码显示
    • 替换[.*]

导入R

library(tidyverse)
vocab <- readLines("input/vocabulary_youdao.txt", encoding = "UTF-8") %>% as.tibble

# extrac word according a pattern
d_ex_vocab <- function(patt) {
  library(magrittr)
  extrt <- stringr::str_extract(vocab$value, patt)
  dong_word_extract <- vocab[!is.na(extrt), ]
  if (dim(dong_word_extract)[1] == 0) 
    stop("No word extracted, plz check the spell!")
  write.csv(dong_word_extract, paste0("output/", patt, ".csv"), quote = F, row.names = F)
  return(dong_word_extract)
}

ex_word <- d_ex_vocab("取决于")

相关文章

  • 有道单词本数据检索方法

    用有道保存了一些查询过的单词和词组,想要对这些内容进行检索。 数据清理 导出单词本为文本文件,在notepad中打...

  • 有道翻译单词本导入助手

    自己做的一个可以将单词txt文件转为有道翻译可导入的xml文件形式,单词txt文件的形式要满足每行只有一个单词。做...

  • 有道词典`v7.5.2.0`版本去广告方法

    有道词典v7.5.2.0版本去广告方法 关闭退出有道词典; 找到有道词典安装路径(例如C:\Users\此处修改为...

  • Java 英语单词本 (基于有道翻译)

    聊起英语这个话题,老大难了,上学的时候总说“我是中国人,不说英国话,英语不及格,说明我爱国”,也不怎么学,从不张口...

  • 有道词典背单词

    1. 自从上大学之后就没怎么学过英语了, 英语课因为实在太无聊也不愿意听, 于是4, 6级考的也都不是很好. 关键...

  • Capslock+常用的功能

    一:【CapsLock】 +【T】有道翻译 1、选中单词,按下【CapsLock】 +【T】,出现有道翻译。 2、...

  • 复盘2016复习 一

    一月二月 幸福课 单词过滤一半 三月 单词有道笔记 中医基础理论 四月 单词有道笔记 中医诊断学 方剂学背诵 政治...

  • 查字典方法

    学会的新查字典方法: 1,打开有道词典 2,输入单词 3,直接切换至柯林斯词典 4,完整阅读每条内容。

  • 有道词典单词转墨墨单词表

    电脑上很多有道词典的单词想转移到墨墨背单词上记忆,近日发现有前人已经做了相关的工作来源于有道云笔记转墨墨单词感谢作...

  • GEO芯片数据差异表达分析

    前面简单给大家介绍过 GEO数据库数据检索方法(一)[http://mp.weixin.qq.com/s?__bi...

网友评论

    本文标题:有道单词本数据检索方法

    本文链接:https://www.haomeiwen.com/subject/mnlzrftx.html