美文网首页
pypinyin的使用 2018-10-26

pypinyin的使用 2018-10-26

作者: Mr_Du_Biao | 来源:发表于2018-10-26 22:12 被阅读0次
    import jieba    #导入jieba模块
    x = '分词的准确度直接影响了后续文本处理和挖掘算法的最终效果。'
    jieba.cut(x)    #使用默认词库进行分词
    print(list(jieba.cut(x)))
    # ['分词', '的', '准确度', '直接', '影响', '了', '后续', '文本处理', '和', '挖掘', '算法', '的', '最终', '效果', '。']
    print(list(jieba.cut('纸杯')))
    # ['纸杯']
    print(list(jieba.cut('花纸杯')))
    # ['花', '纸杯']
    jieba.add_word('花纸杯')
    print(list(jieba.cut('花纸杯')))
    
    
    import snownlp  #导入snownlp
    print(snownlp.SnowNLP('学而时习之,不亦说乎').words)
    # ['学而', '时习', '之', ',', '不亦', '说乎']
    print(snownlp.SnowNLP(x).words)
    # ['分词', '的', '准确度', '直接', '影响', '了', '后续', '文本', '处理', '和', '挖掘', '算法', '的', '最终', '效果', '。']
    
    
    from pypinyin import lazy_pinyin,pinyin
    print(lazy_pinyin('江西赣州')) #返回拼音
    # ['jiang', 'xi', 'gan', 'zhou']
    print(lazy_pinyin('江西赣州',1))    #带声调的拼音
    # ['jiāng', 'xī', 'gàn', 'zhōu']
    print(lazy_pinyin('江西赣州',2))    #另一种拼音风格
    # ['jia1ng', 'xi1', 'ga4n', 'zho1u']
    print(lazy_pinyin('江西赣州',3))    #只返回拼音首字母
    # ['j', 'x', 'g', 'zh']
    print(lazy_pinyin('重要',1))    #能够根据词组智能识别多音字
    # ['zhòng', 'yào']
    print(lazy_pinyin('重阳',1))
    # ['chóng', 'yáng']
    print(pinyin('江西')) #返回拼音
    # [['jiāng'], ['xī']]
    print(pinyin('重阳节',heteronym=True)) #返回多音字的所有读音
    # [['zhòng', 'chóng', 'tóng'], ['yáng'], ['jié', 'jiē']]
    import jieba
    x='中英文混合test123456'
    print(lazy_pinyin(x))  #自动调用已安装的pypinyin扩展分词功能
    # ['zhong', 'ying', 'wen', 'hun', 'he', 'test123456']
    print(list(jieba.cut(x))) #自动调用jieba扩展分词功能
    # ['中英文', '混合', 'test123456']
    x='江西的桃子真好吃'
    print(sorted(x,key=lambda ch:lazy_pinyin(ch))) #按拼音对汉字进行排序
    # ['吃', '的', '好', '江', '桃', '西', '真', '子']
    

    相关文章

      网友评论

          本文标题:pypinyin的使用 2018-10-26

          本文链接:https://www.haomeiwen.com/subject/ucbltqtx.html