美文网首页数析
Python jieba分词、词云、文件读取、函数调用、匿名函数

Python jieba分词、词云、文件读取、函数调用、匿名函数

作者: C_Z_Q_ | 来源:发表于2019-10-23 18:19 被阅读0次

    词云的生成

    使用wordcloud 库生成词云

    • 安装wordcloud
    pip install wordcloud
    

    调用wordcloud类,生成词云对象

    词云格式:WordCloud().genrate.to_file()

    from wordcloud import WordCloud
     txt = """开头的水下长对决戏可算华语电影的顶尖存在;驱逐舰、导弹和坦克在商业片里这么狂用也是了得;镜头运用和笑点插入都很好莱坞爆米花,不功不过;从头打到尾是真拼,虽然镜头也有略乱时;因为没啥期望值,所以被吴京的野心吓了一跳;吴刚、于谦和丁海峰老三位像炖烂熟的牛筋,嚼着就舒服。"""
    wc = WordCloud(
        background_color='white',
        font_path='msyh.ttc',
        width=800,
        height=600).generate(txt)
    wc.to_file('ccc.png')
    
    ccc

    使用结巴分词对中文词进行分割

    import jieba
    text = """开头的水下长对决戏可算华语电影的顶尖存在;驱逐舰、导弹和坦克在商业片里这么狂用也是了得;镜头运用和笑点插入都很好莱坞爆米花,不功不过;从头打到尾是真拼,虽然镜头也有略乱时;因为没啥期望值,所以被吴京的野心吓了一跳;吴刚、于谦和丁海峰老三位像炖烂熟的牛筋,嚼着就舒服。"""
    #中文分词处理
    txt_list = jieba.lcut(text)
    #将列表转化成字符串,用空格隔开
    txt = " ".join(txt_list)
    #调用wordcloud类,生成词云对象
    from wordcloud import WordCloud
    #txt = """开头的水下长对决戏可算华语电影的顶尖存在;驱逐舰、导弹和坦克在商业片里这么狂用也是了得;镜头运用和笑点插入都很好莱坞爆米花,不功不过;从头打到尾是真拼,虽然镜头也有略乱时;因为没啥期望值,所以被吴京的野心吓了一跳;吴刚、于谦和丁海峰老三位像炖烂熟的牛筋,嚼着就舒服。"""
    wc = WordCloud(
        background_color='white',
        font_path='msyh.ttc',
        width=800,
        height=600).generate(txt)
    wc.to_file('aaa.png')
    
    aaa

    python中的文件操作

    1. 读取文件
      1)open()内置函数可以读取指定路径的文件
      格式:open(file,mode,buffering,encoding)
      file是文件的路径 mode = 'r' 是以只读方式打开
    • 读取名为text,txt
    f = open(file='text.txt', mode='r',encoding='UTF-8')
    txt = f.read()
    f.close()
    print(txt)
    

    2)使用with 上下文管理器进行文件读取

    with open('text.txt','r',encoding='UTF-8')as f:
        print(f.read())
    

    读取三国演义小说,并且绘制该小说整篇词云

    import jieba
    with open('novel/threekingdom.txt', 'r', encoding='UTF-8')as f:
        data = f.read()
     #   print(data)
    
    #分词
    word_list = jieba.lcut(data)
    #print(len(word_list))
    words = " ".join(word_list)
    #词云
    from wordcloud import WordCloud
    wc = WordCloud(
        background_color='white',
        font_path='msyh.ttc',
        width = 800,
       height=600).generate(words)
    wc.to_file('aaa.png')
    
    三国词云

    绘制指定形状图片的词云

    • 安装imageio库
    pip install imageio
    

    读取三国演义小说,并且绘制该小说特定形状词云

    import jieba
    #通过imageio模块读取指定形状的图片
    import imageio
    mask = imageio.imread('china.jpg')
    with open('novel/threekingdom.txt', 'r', encoding='UTF-8')as f:
        data = f.read()
     #   print(data)
    
    #分词
    word_list = jieba.lcut(data)
    #print(len(word_list))
    words = " ".join(word_list)
    #词云
    from wordcloud import WordCloud
    #txt1 = words
    wc = WordCloud(
        background_color='white',
        font_path='msyh.ttc',
        width = 800,
       height=600,
        mask=mask
        # #词云中词的最大数
        # max_words=40,
        # #最小字体的大小
        # min_font_size=80
    ).generate(words)
    wc.to_file('a.png')
    
    特定形状

    列表的排序

    • 生成一个列表
    li = []
    for i in range(10):
        li.append(i)
    print('生成的li:', li)
    
    1. 随机打乱顺序
    from random import shuffle
    shuffle(li)
    print('打乱后的li:', li)
    

    2.对列表重新排序
    (1)使用list对象的sort方法

    li.sort()
    print('使用sort后的li:', li)
    
    • reverse=Ture 倒序排序
    li.sort(reverse=True)
    print('使用sort方法,指定reverse进行排序后:', li)
    

    (2)使用内置函数sorted

    li = sorted(li)
    print('使用sorted函数排序之后',li)
    li = sorted(li,reverse=True)
    print('使用sorted函数,reverse=Ture排序之后',li)
    
    • 总结:sorted和sort的区别
      1.sort仅针对列表进行排序,无返回值,会在原来列表基础上修改
      2.sorted 是Python中单独的内置函数,可以对可迭代(iteratble)对象对象进行排序,
      不局限于list,它不改表原生数据,重新生成一个新的队列

    稍微复杂的列表排序

    stu_info_list = [
        {"name": "zhangsan","age": 8, "addr": "浑南区"},
        {"name": "lisi","age": 58, "addr": "浑南区"},
        {"name": "wuwusan","age": 28, "addr": "浑南区"},
        {"name": "zhanxiixan","age": 11, "addr": "浑南区"},
    ]
    print("排序前", stu_info_list)
    def sort_by_age(x):
        return x["age"]
    
    #对学生信息进行排序   key是指定按照什么排序,它接受的是一个自定义函数的名字
    stu_info_list.sort(key=sort_by_age)
    print("排序后", stu_info_list)
    
    函数:

    将反复使用的代码封装起来,进行调用
    格式:

    def 函数名():
        pass
    #调用
    函数名(参数1,....)
    

    编写一个1 ~ 任意整数累加和的函数

    def caculateNum(num):
        sum = 0
        for i in range(1, num +1):
            sum += i
        return sum
    # print(caculateNum(100))
    num = int(input('请输入任意整数'))
    print('1到{}之间的累加和为{}'.format(num, caculateNum(num)))
    

    匿名函数:

    lambda 表达式
    格式:

    lambda 参数1, 参数2,...:表达式      #参数可以有多个,但是返回的表达式只允许有一个
    
    • 两个数相加
    sum_two_num = lambda x,  y: x+y
    print(sum_two_num(1, 5))
    

    使用带有匿名函数的表达式排序

    stu_info_list = [
        {"name": "zhangsan","age": 8, "addr": "浑南区"},
        {"name": "lisi","age": 58, "addr": "浑南区"},
        {"name": "wuwusan","age": 28, "addr": "浑南区"},
        {"name": "zhanxiixan","age": 11, "addr": "浑南区"},
    ]
    stu_info_list = sorted(stu_info_list, key=lambda items:items['age'],reverse=True)
    print(stu_info_list)
    

    相关文章

      网友评论

        本文标题:Python jieba分词、词云、文件读取、函数调用、匿名函数

        本文链接:https://www.haomeiwen.com/subject/tbshvctx.html