美文网首页
Python分词、词云

Python分词、词云

作者: 家琦的三亩地 | 来源:发表于2016-11-12 10:25 被阅读0次

使用Python的结巴分词,但是排除一些词的代码好像运行没生效,可能是dataframe里面的一些方法没掌握,用了R处理这种类型的统计数据,感觉比Python方便些。

# -*- coding: utf-8 -*-
import jieba
import numpy
import pandas
# 解决编码
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
# 没问题何以删掉
# 打开语料文件,获取文本
my_file =open('bt.txt', 'r') 
content = my_file.read()
my_file.close()
# 分词
segments = []
segs = jieba.cut(content, cut_all=False) # 使用精确模式
for seg in segs:
    if len(seg)>1:
        segments.append(seg)
segmentDF = pandas.DataFrame({'segment':segments})
segStat = segmentDF.groupby(
by=["segment"]
)["segment"].agg({
"num":numpy.size
}).reset_index().sort(
columns=["num"],
ascending=False
);

result = segStat.head(500)
segStat.to_csv('result2.csv', sep='\t')

print result
wordcloud = WordCloud(
font_path='D:\\simhei.ttf',
background_color="black",
width=800,height=400
)
wordcloud = wordcloud.fit_words(segStat.head(1000).itertuples(index=False))
wordcloud.to_file('filename4.jpg')

相关文章

网友评论

      本文标题:Python分词、词云

      本文链接:https://www.haomeiwen.com/subject/mzxtpttx.html