美文网首页
NLP自然语言处理-汉字拼音转换

NLP自然语言处理-汉字拼音转换

作者: Viterbi | 来源:发表于2022-09-30 08:18 被阅读0次

    NLP自然语言处理-汉字拼音转换

    简介

    特性

    • https://github.com/mozillazg/python-pinyin#id1
    • 根据词组智能匹配最正确的拼音。
    • 支持多音字。
    • 简单的繁体支持, 注音支持。
    • 支持多种不同拼音/注音风格。

    安装

    $ pip install pypinyin
    使用示例 Python 3(Python 2 下把 ‘中心’ 替换为 u’中心’ 即可):

    >>> from pypinyin import pinyin, lazy_pinyin, Style
    
    >>> pinyin('中心')
    [['zhōng'], ['xīn']]
    
    >>> pinyin('中心', heteronym=True)  # 启用多音字模式
    [['zhōng', 'zhòng'], ['xīn']]
    
    >>> pinyin('中心', style=Style.FIRST_LETTER)  # 设置拼音风格
    [['z'], ['x']]
    
    >>> pinyin('中心', style=Style.TONE2, heteronym=True)
    [['zho1ng', 'zho4ng'], ['xi1n']]
    
    >>> pinyin('中心', style=Style.TONE3, heteronym=True)
    [['zhong1', 'zhong4'], ['xin1']]
    
    >>> pinyin('中心', style=Style.BOPOMOFO)  # 注音风格
    [['ㄓㄨㄥ'], ['ㄒㄧㄣ']]
    
    >>> lazy_pinyin('中心')  # 不考虑多音字的情况
    ['zhong', 'xin']
    
    >>> lazy_pinyin('战略', v_to_u=True)  # 不使用 v 表示 ü
    ['zhan', 'lüe']
    
    # 使用 5 标识轻声
    >>> lazy_pinyin('衣裳', style=Style.TONE3, neutral_tone_with_five=True)
    ['yi1', 'shang5']
    

    注意事项 :
    默认情况下拼音结果不会标明哪个韵母是轻声,轻声的韵母没有声调或数字标识(可以通过参数 neutral_tone_with_five=True 开启使用 5 标识轻声 )。
    默认情况下无声调相关拼音风格下的结果会使用 v 表示 ü (可以通过参数 v_to_u=True 开启使用 ü 代替 v )。
    默认情况下会原样输出没有拼音的字符(自定义处理没有拼音的字符的方法见 文档 )。

    命令行工具:

    $ pypinyin 音乐
    yīn yuè
    $ pypinyin -h
    

    文档

    • 详细文档请访问:http://pypinyin.rtfd.io/ 。
    • 项目代码开发方面的问题可以看看 开发文档 https://pypinyin.readthedocs.io/zh_CN/develop/develop.html 。

    FAQ

    词语中的多音字拼音有误?

    目前是通过词组拼音库的方式来解决多音字问题的。如果出现拼音有误的情况, 可以自定义词组拼音来调整词语中的拼音:

    >>> from pypinyin import Style, pinyin, load_phrases_dict
    >>> pinyin('步履蹒跚')
    [['bù'], ['lǚ'], ['mán'], ['shān']]
    >>> load_phrases_dict({'步履蹒跚': [['bù'], ['lǚ'], ['pán'], ['shān']]})
    >>> pinyin('步履蹒跚')
    [['bù'], ['lǚ'], ['pán'], ['shān']]
    

    为什么没有 y, w, yu 几个声母?

    >>> from pypinyin import Style, pinyin
    >>> pinyin('下雨天', style=Style.INITIALS)
    [['x'], [''], ['t']]
    

    因为根据 《汉语拼音方案》 , y,w,ü (yu) 都不是声母。

    声母风格(INITIALS)下,“雨”、“我”、“圆”等汉字返回空字符串,因为根据 《汉语拼音方案》 , y,w,ü (yu) 都不是声母,在某些特定韵母无声母时,才加上 y 或 w,而 ü 也有其特定规则。 —— @hotoo

    如果你觉得这个给你带来了麻烦,那么也请小心一些无声母的汉字(如“啊”、“饿”、“按”、“昂”等)。 这时候你也许需要的是首字母风格(FIRST_LETTER)。 —— @hotoo

    参考: hotoo/pinyin#57, #22, #27, #44

    如果觉得这个行为不是你想要的,就是想把 y 当成声母的话,可以指定 strict=False , 这个可能会符合你的预期:

    >>> from pypinyin import Style, pinyin
    >>> pinyin('下雨天', style=Style.INITIALS)
    [['x'], [''], ['t']]
    >>> pinyin('下雨天', style=Style.INITIALS, strict=False)
    [['x'], ['y'], ['t']]
    

    详见 strict 参数的影响 。

    如何减少内存占用

    如果对拼音的准确性不是特别在意的话,可以通过设置环境变量 PYPINYIN_NO_PHRASES 和 PYPINYIN_NO_DICT_COPY 来节省内存。 详见 文档

    更多 FAQ 详见文档中的 FAQ 部分。

    拼音数据

    • 单个汉字的拼音使用 pinyin-data 的数据
    • 词组的拼音使用 phrase-pinyin-data 的数据
    • 声母和韵母使用 《汉语拼音方案》 的数据

    Related Projects

    hotoo/pinyin: 汉字拼音转换工具 Node.js/JavaScript 版。
    mozillazg/go-pinyin: 汉字拼音转换工具 Go 版。 mozillazg/rust-pinyin: 汉字拼音转换工具 Rust 版。

    实现原理

    主逻辑:

    1. 对输入的字符串按是否是汉字进行分词(seg
    2. 对分词结果的每个词条进行获取词条拼音的逻辑
      2.1 检查词条是否是汉字,不是汉字则走处理没有拼音数据的逻辑(handle_nopinyin)
      2.2 检查词条是否在 PHRASES_DICT 中,如果在直接取 PHRASES_DICT 中这个词条的拼音数据 2.3 如果词条不在 PHRASES_DICT 中,遍历词条包含的字符,每个字符进行 single_pinyin 逻辑处理
    3. single_pinyin 的逻辑:
      3.1 检查字符是否在 PINYIN_DICT 中,如果在的话,取 PINYIN_DICT 中这个字符的拼音数据 3.2 如果不在的话,走 handle_nopinyin 逻辑
    4. handle_nopinyin 逻辑: 根据 errors 参数的值返回不同的结果。
    5. 对上面的步骤获得的拼音数据按指定的拼音风格进行转换。
    • PHRASES_DICT:词组拼音数据
    • PINYIN_DICT: 单个汉字的拼音数据

    本文使用 文章同步助手 同步

    相关文章

      网友评论

          本文标题:NLP自然语言处理-汉字拼音转换

          本文链接:https://www.haomeiwen.com/subject/jvdeortx.html