author:明天依旧可好
email:mtyjkh@outlook.com
time:2018-11-24
在这里先简单记录一下音译项目具体要实现的目标--利用英文发音的谐音为英文名字找到一个对应且合理的中文名。
英文 | 中文 |
---|---|
Andy | 安迪 |
Aab | 奥布 |
Aaba | 阿巴 |
Aabel | 奥贝尔 |
Aabraek | 奥布赖克 |
Aabrant | 阿布兰特 |
Aaby | 奥比 |
Aabye | 奥比 |
Aach | 阿赫 |
Aad | 阿德 |
Aadahi | 阿达希 |
Aadahl | 奥达尔 |
Aadalbert | 阿达尔贝特 |
Aadasch | 阿达施 |
Aadde | 奥德 |
首先我要将手上的67万条数据(类型上方的数据)进行清理,以下是我的清理记录。
- 通过观察发现绝大部分来源于日语的英文人名与其对应的中文名在发音上没有对应关系。
- 进一步探究得知,来源于朝鲜语、越语的语料也不具参考价值。
- 探究如何判断语料的来源。
- 判断路径一:“Source”字段中标识为日语、朝鲜语、越语;判断路径二:部分数据的“CnName”字段中也会标明语料来源。
- 通过python代码删除来源于日语、朝鲜语、越语的语料并将它们分别记录进“sourceIsJapan.csv”、“sourceIsKorea.csv”、“sourceIsVietnam.csv”三个文件中。
代码记录:以防存在不规则数据打断清洗进程,用try语句来处理并将不规则数据记录进“errorRows.csv”文件中。
try:
if "日" == row["Source"] or "〈日〉" in row["CnName"]:
dataFrame = dataFrame.drop(index)
writer_oneRow_toFile("sourceIsJapan.csv", row)
elif "朝" == row["Source"] or "〈朝〉" in row["CnName"]:
dataFrame = dataFrame.drop(index)
writer_oneRow_toFile("sourceIsKorea.csv", row)
elif "越" == row["Source"] or "〈越〉" in row["CnName"]:
dataFrame = dataFrame.drop(index)
writer_oneRow_toFile("sourceIsVietnam.csv", row)
else:
writer_oneRow_toFile("世界人名翻译大辞典 - 1.csv", row)
except:
writer_oneRow_toFile("errorRows.csv", row)
6.后面发现67万数据即使用代码来处理也特别花费时间,再次对数据进行观察发现,发现这份数据分为俩个部分,我上面提到的数据均是第二部分的数据。

最后我将第二部分数据整体从语料库中删除,生成一个不含第二部分数据的“世界人名翻译大辞典 - 1.csv”文件。
网友评论