Python jieba分词、词云、文件读取、函数调用、匿名函数

作者: C_Z_Q_ | 来源:发表于2019-10-23 18:19 被阅读0次

Python jieba分词、词云、文件读取、函数调用、匿名函数
使用sklearn+jieba分词写的文本分类
jieba库的使用
4.函数
函数基础与lambda函数
常用分词工具使用教程
jieba python中文分词库快速入门
python 数据词云展示实例（2）- jieba库的使用
Python精简学习(九)
Python3 生成中文词云

词云的生成

使用wordcloud 库生成词云

安装wordcloud

pip install wordcloud

调用wordcloud类，生成词云对象

词云格式：WordCloud().genrate.to_file()

from wordcloud import WordCloud
 txt = """开头的水下长对决戏可算华语电影的顶尖存在；驱逐舰、导弹和坦克在商业片里这么狂用也是了得；镜头运用和笑点插入都很好莱坞爆米花，不功不过；从头打到尾是真拼，虽然镜头也有略乱时；因为没啥期望值，所以被吴京的野心吓了一跳；吴刚、于谦和丁海峰老三位像炖烂熟的牛筋，嚼着就舒服。"""
wc = WordCloud(
    background_color='white',
    font_path='msyh.ttc',
    width=800,
    height=600).generate(txt)
wc.to_file('ccc.png')

ccc

使用结巴分词对中文词进行分割

import jieba
text = """开头的水下长对决戏可算华语电影的顶尖存在；驱逐舰、导弹和坦克在商业片里这么狂用也是了得；镜头运用和笑点插入都很好莱坞爆米花，不功不过；从头打到尾是真拼，虽然镜头也有略乱时；因为没啥期望值，所以被吴京的野心吓了一跳；吴刚、于谦和丁海峰老三位像炖烂熟的牛筋，嚼着就舒服。"""
#中文分词处理
txt_list = jieba.lcut(text)
#将列表转化成字符串，用空格隔开
txt = " ".join(txt_list)
#调用wordcloud类，生成词云对象
from wordcloud import WordCloud
#txt = """开头的水下长对决戏可算华语电影的顶尖存在；驱逐舰、导弹和坦克在商业片里这么狂用也是了得；镜头运用和笑点插入都很好莱坞爆米花，不功不过；从头打到尾是真拼，虽然镜头也有略乱时；因为没啥期望值，所以被吴京的野心吓了一跳；吴刚、于谦和丁海峰老三位像炖烂熟的牛筋，嚼着就舒服。"""
wc = WordCloud(
    background_color='white',
    font_path='msyh.ttc',
    width=800,
    height=600).generate(txt)
wc.to_file('aaa.png')

aaa

python中的文件操作

读取文件
1)open()内置函数可以读取指定路径的文件
格式：open(file,mode,buffering,encoding)
file是文件的路径 mode = 'r' 是以只读方式打开

读取名为text,txt

f = open(file='text.txt', mode='r',encoding='UTF-8')
txt = f.read()
f.close()
print(txt)

2)使用with 上下文管理器进行文件读取

with open('text.txt','r',encoding='UTF-8')as f:
    print(f.read())

读取三国演义小说，并且绘制该小说整篇词云

import jieba
with open('novel/threekingdom.txt', 'r', encoding='UTF-8')as f:
    data = f.read()
 #   print(data)

#分词
word_list = jieba.lcut(data)
#print(len(word_list))
words = " ".join(word_list)
#词云
from wordcloud import WordCloud
wc = WordCloud(
    background_color='white',
    font_path='msyh.ttc',
    width = 800,
   height=600).generate(words)
wc.to_file('aaa.png')

三国词云

绘制指定形状图片的词云

安装imageio库

pip install imageio

读取三国演义小说，并且绘制该小说特定形状词云

import jieba
#通过imageio模块读取指定形状的图片
import imageio
mask = imageio.imread('china.jpg')
with open('novel/threekingdom.txt', 'r', encoding='UTF-8')as f:
    data = f.read()
 #   print(data)

#分词
word_list = jieba.lcut(data)
#print(len(word_list))
words = " ".join(word_list)
#词云
from wordcloud import WordCloud
#txt1 = words
wc = WordCloud(
    background_color='white',
    font_path='msyh.ttc',
    width = 800,
   height=600,
    mask=mask
    # #词云中词的最大数
    # max_words=40,
    # #最小字体的大小
    # min_font_size=80
).generate(words)
wc.to_file('a.png')

特定形状

列表的排序

生成一个列表

li = []
for i in range(10):
    li.append(i)
print('生成的li:', li)

随机打乱顺序

from random import shuffle
shuffle(li)
print('打乱后的li:', li)

2.对列表重新排序
(1)使用list对象的sort方法

li.sort()
print('使用sort后的li:', li)

reverse=Ture 倒序排序

li.sort(reverse=True)
print('使用sort方法，指定reverse进行排序后:', li)

(2)使用内置函数sorted

li = sorted(li)
print('使用sorted函数排序之后',li)
li = sorted(li,reverse=True)
print('使用sorted函数,reverse=Ture排序之后',li)

总结：sorted和sort的区别
1.sort仅针对列表进行排序，无返回值，会在原来列表基础上修改
2.sorted 是Python中单独的内置函数，可以对可迭代（iteratble）对象对象进行排序，
不局限于list，它不改表原生数据，重新生成一个新的队列

稍微复杂的列表排序

stu_info_list = [
    {"name": "zhangsan","age": 8, "addr": "浑南区"},
    {"name": "lisi","age": 58, "addr": "浑南区"},
    {"name": "wuwusan","age": 28, "addr": "浑南区"},
    {"name": "zhanxiixan","age": 11, "addr": "浑南区"},
]
print("排序前", stu_info_list)
def sort_by_age(x):
    return x["age"]

#对学生信息进行排序   key是指定按照什么排序，它接受的是一个自定义函数的名字
stu_info_list.sort(key=sort_by_age)
print("排序后", stu_info_list)

函数：

将反复使用的代码封装起来，进行调用
格式：

def 函数名():
    pass
#调用
函数名(参数1，....)

编写一个1 ~ 任意整数累加和的函数

def caculateNum(num):
    sum = 0
    for i in range(1, num +1):
        sum += i
    return sum
# print(caculateNum(100))
num = int(input('请输入任意整数'))
print('1到{}之间的累加和为{}'.format(num, caculateNum(num)))

匿名函数:

lambda 表达式
格式：

lambda 参数1, 参数2,...:表达式      #参数可以有多个，但是返回的表达式只允许有一个

两个数相加

sum_two_num = lambda x,  y: x+y
print(sum_two_num(1, 5))

使用带有匿名函数的表达式排序

stu_info_list = [
    {"name": "zhangsan","age": 8, "addr": "浑南区"},
    {"name": "lisi","age": 58, "addr": "浑南区"},
    {"name": "wuwusan","age": 28, "addr": "浑南区"},
    {"name": "zhanxiixan","age": 11, "addr": "浑南区"},
]
stu_info_list = sorted(stu_info_list, key=lambda items:items['age'],reverse=True)
print(stu_info_list)

网友评论

数析

本文标题：Python jieba分词、词云、文件读取、函数调用、匿名函数

本文链接：https://www.haomeiwen.com/subject/tbshvctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python jieba分词、词云、文件读取、函数调用、匿名函数

词云的生成

调用wordcloud类，生成词云对象

词云格式：WordCloud().genrate.to_file()

使用结巴分词对中文词进行分割

python中的文件操作

读取三国演义小说，并且绘制该小说整篇词云

绘制指定形状图片的词云

读取三国演义小说，并且绘制该小说特定形状词云

列表的排序

稍微复杂的列表排序

函数：

编写一个1 ~ 任意整数累加和的函数

匿名函数:

使用带有匿名函数的表达式排序

相关文章

Python jieba分词、词云、文件读取、函数调用、匿名函数

使用sklearn+jieba分词写的文本分类

jieba库的使用

4.函数

函数基础与lambda函数

常用分词工具使用教程

jieba python中文分词库快速入门

python 数据词云展示实例（2）- jieba库的使用

Python精简学习(九)

Python3 生成中文词云

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

数析