美文网首页
英汉音译项目启动

英汉音译项目启动

作者: K同学啊 | 来源:发表于2018-11-24 23:42 被阅读16次

author:明天依旧可好
email:mtyjkh@outlook.com
time:2018-11-24


在这里先简单记录一下音译项目具体要实现的目标--利用英文发音的谐音为英文名字找到一个对应且合理的中文名。

英文 中文
Andy 安迪
Aab 奥布
Aaba 阿巴
Aabel 奥贝尔
Aabraek 奥布赖克
Aabrant 阿布兰特
Aaby 奥比
Aabye 奥比
Aach 阿赫
Aad 阿德
Aadahi 阿达希
Aadahl 奥达尔
Aadalbert 阿达尔贝特
Aadasch 阿达施
Aadde 奥德

首先我要将手上的67万条数据(类型上方的数据)进行清理,以下是我的清理记录。

  1. 通过观察发现绝大部分来源于日语的英文人名与其对应的中文名在发音上没有对应关系。
  2. 进一步探究得知,来源于朝鲜语、越语的语料也不具参考价值。
  3. 探究如何判断语料的来源。
  4. 判断路径一:“Source”字段中标识为日语、朝鲜语、越语;判断路径二:部分数据的“CnName”字段中也会标明语料来源。
  5. 通过python代码删除来源于日语、朝鲜语、越语的语料并将它们分别记录进“sourceIsJapan.csv”、“sourceIsKorea.csv”、“sourceIsVietnam.csv”三个文件中。

代码记录:以防存在不规则数据打断清洗进程,用try语句来处理并将不规则数据记录进“errorRows.csv”文件中。

try:
    if "日" == row["Source"] or "〈日〉" in row["CnName"]:
        dataFrame = dataFrame.drop(index)
        writer_oneRow_toFile("sourceIsJapan.csv", row)

    elif "朝" == row["Source"] or "〈朝〉" in row["CnName"]:
        dataFrame = dataFrame.drop(index)
        writer_oneRow_toFile("sourceIsKorea.csv", row)

    elif "越" == row["Source"] or "〈越〉" in row["CnName"]:
        dataFrame = dataFrame.drop(index)
        writer_oneRow_toFile("sourceIsVietnam.csv", row)            
    else:
        writer_oneRow_toFile("世界人名翻译大辞典 - 1.csv", row)

except:
        writer_oneRow_toFile("errorRows.csv", row)

6.后面发现67万数据即使用代码来处理也特别花费时间,再次对数据进行观察发现,发现这份数据分为俩个部分,我上面提到的数据均是第二部分的数据。

第二部分数据示例

最后我将第二部分数据整体从语料库中删除,生成一个不含第二部分数据的“世界人名翻译大辞典 - 1.csv”文件。

相关文章

  • 英汉音译项目启动

    author:明天依旧可好email:mtyjkh@outlook.comtime:2018-11-24 在这里先...

  • 英汉音译

    author:明天依旧可好email:mtyjkh@outlook.comtime:2018-11-24 在英文取...

  • 项目管理术语英汉对照表

    项目管理术语英汉对照表2018-7-20 A Abstract Resource 抽象资源 Abstraction...

  • 音译

    啊哒呜啦唔啊嘀呢咕嘚莱嘀哩莱咿呀唯唉哪嗷嘟好嘶哔kī哎呐呢唉哒呜啦咕哇嘀叨哔哈唉呐呼嗖非呦啊嘀哔咿啦呐嘶呋。

  • webstorm 调试vue项目

    启动项目 debug项目 先启动项目 http://localhost:8080:启动访问的地址webpack:/...

  • day1

    十次方项目创建: 1.查询 1.1:启动项目 运行base工程的主启动类即可启动该项目...

  • Linux启动Java项目脚本(让项目后台运行)

    1、编写首次启动项目脚本(nohupstart.sh) 2、如果项目已经启动,则重启项目(先杀死原进程再启动) 我...

  • 项目启动

    标签(空格分隔): PMP 项目管理 启动启动是承诺开始一个新项目或一个已存在项目可以进入下一个阶段的过程。(P3...

  • 项目启动

    3.2 最忙乱的第1周——项目启动 小M思考之后觉得客户的投诉说得没错。一周马上要过去了,但这几天自己每天做了什么...

  • 项目启动

    启动: /opt/WebStorm/bin/webstorm.sh 项目启动命令:/opt/WebStorm/bi...

网友评论

      本文标题:英汉音译项目启动

      本文链接:https://www.haomeiwen.com/subject/paduqqtx.html