美文网首页
英汉音译项目启动

英汉音译项目启动

作者: K同学啊 | 来源:发表于2018-11-24 23:42 被阅读16次

    author:明天依旧可好
    email:mtyjkh@outlook.com
    time:2018-11-24


    在这里先简单记录一下音译项目具体要实现的目标--利用英文发音的谐音为英文名字找到一个对应且合理的中文名。

    英文 中文
    Andy 安迪
    Aab 奥布
    Aaba 阿巴
    Aabel 奥贝尔
    Aabraek 奥布赖克
    Aabrant 阿布兰特
    Aaby 奥比
    Aabye 奥比
    Aach 阿赫
    Aad 阿德
    Aadahi 阿达希
    Aadahl 奥达尔
    Aadalbert 阿达尔贝特
    Aadasch 阿达施
    Aadde 奥德

    首先我要将手上的67万条数据(类型上方的数据)进行清理,以下是我的清理记录。

    1. 通过观察发现绝大部分来源于日语的英文人名与其对应的中文名在发音上没有对应关系。
    2. 进一步探究得知,来源于朝鲜语、越语的语料也不具参考价值。
    3. 探究如何判断语料的来源。
    4. 判断路径一:“Source”字段中标识为日语、朝鲜语、越语;判断路径二:部分数据的“CnName”字段中也会标明语料来源。
    5. 通过python代码删除来源于日语、朝鲜语、越语的语料并将它们分别记录进“sourceIsJapan.csv”、“sourceIsKorea.csv”、“sourceIsVietnam.csv”三个文件中。

    代码记录:以防存在不规则数据打断清洗进程,用try语句来处理并将不规则数据记录进“errorRows.csv”文件中。

    try:
        if "日" == row["Source"] or "〈日〉" in row["CnName"]:
            dataFrame = dataFrame.drop(index)
            writer_oneRow_toFile("sourceIsJapan.csv", row)
    
        elif "朝" == row["Source"] or "〈朝〉" in row["CnName"]:
            dataFrame = dataFrame.drop(index)
            writer_oneRow_toFile("sourceIsKorea.csv", row)
    
        elif "越" == row["Source"] or "〈越〉" in row["CnName"]:
            dataFrame = dataFrame.drop(index)
            writer_oneRow_toFile("sourceIsVietnam.csv", row)            
        else:
            writer_oneRow_toFile("世界人名翻译大辞典 - 1.csv", row)
    
    except:
            writer_oneRow_toFile("errorRows.csv", row)
    

    6.后面发现67万数据即使用代码来处理也特别花费时间,再次对数据进行观察发现,发现这份数据分为俩个部分,我上面提到的数据均是第二部分的数据。

    第二部分数据示例

    最后我将第二部分数据整体从语料库中删除,生成一个不含第二部分数据的“世界人名翻译大辞典 - 1.csv”文件。

    相关文章

      网友评论

          本文标题:英汉音译项目启动

          本文链接:https://www.haomeiwen.com/subject/paduqqtx.html