美文网首页
Python_ jieba、snownlp中文分词、Pinyin

Python_ jieba、snownlp中文分词、Pinyin

作者: Koelre | 来源:发表于2020-04-25 16:51 被阅读0次

一、安装

pip install jieba
pip install snownlp # 使用这个,建议使用Python3环境
pip install pypinyin

分词:

jieba分词

# jieba分词

>>> import jieba
>>> text = "我说我应该好好学习"
>>> cutafter = list(jieba.cut(text))
Building prefix dict from the default dictionary ...
Dumping model to file cache c:\users\ztdn00\appdata\local\temp\jieba.cache
Loading model cost 5.820 seconds.
Prefix dict has been built succesfully.
>>> print cutafter
[u'\u6211', u'\u8bf4', u'\u6211', u'\u5e94\u8be5', u'\u597d\u597d\u5b66\u4e60']
>>> for t in cutafter:
    print t 
我
说
我
应该
好好学习
>>> 

snownlp 分词,Python3的环境下可以正常分词

# snownlp 分词
>>> import snownlp
>>> t = "我说我应该好好学习"
>>> sn = snownlp.SnowNLP(t).words
>>> print(sn)
['我', '说', '我', '应该', '好好', '学习']
>>>

Python2 环境下是酱紫的:

>>> import snownlp
>>> t = "我说我应该好好学习"
>>> print snownlp.SnowNLP(t).words
['\xce\xd2\xcb\xb5\xce\xd2\xd3\xa6\xb8\xc3\xba\xc3\xba\xc3\xd1\xa7\xcf\xb0']
>>> 

可以看出分词是没成功的哈

https://blog.csdn.net/qq_35038153/article/details/78771251

https://www.cnblogs.com/cmnz/p/6963850.html

相关文章

  • Python_ jieba、snownlp中文分词、Pinyin

    一、安装 分词: jieba分词 snownlp 分词,Python3的环境下可以正常分词 Python2 环境下...

  • 中文分词、去停用词、发现新词

    NLP涵盖的内容较多,分词是基础,特别是对中文来说。 中文分词 目前使用过snownlp、jieba,简单对比下,...

  • 结巴中文分词的用法

    jieba “结巴”中文分词:做最好的 Python 中文分词组件"Jieba" (Chinese for "to...

  • python 结巴分词

    jieba “结巴”中文分词:做最好的 Python 中文分词组件“Jieba” (Chinese for “to...

  • Python 结巴分词

    jieba “结巴”中文分词:做最好的 Python 中文分词组件 “Jieba” (Chinese for “t...

  • python jieba分词库使用

    jieba “结巴”中文分词:做最好的 Python 中文分词组件 “Jieba” (Chinese for “t...

  • python3中文jieba分词设置说明

    jieba分词的安装 在虚拟环境中 / 本地下安装 jieba jieba分词的配置 jieba中文分词的使用 进...

  • jieba分词

    参考:Python 中文分词组件 jiabaPython中文分词 jieba 十五分钟入门与进阶jieba完整文档...

  • 关于python中jieba第三方库的使用

    jieba库是优秀的中文分词第三方库。 通过 进行安装。 jieba中文分词的原理:通过中文词库的方式来识别分词。...

  • 豆瓣评分预测

    中文分词 中文分词包jieba,用jieba对原始文本做分词。 文本预处理 1. 去掉无用的字符 2. 去掉停用词...

网友评论

      本文标题:Python_ jieba、snownlp中文分词、Pinyin

      本文链接:https://www.haomeiwen.com/subject/umvqmftx.html