美文网首页数据分析
[数据分析]基于人物登场率生成《倚天》词云图

[数据分析]基于人物登场率生成《倚天》词云图

作者: 浩成聊技术 | 来源:发表于2018-08-27 22:53 被阅读54次

    前言

    词云图在文本分析上有着显著的效果,前段时间看完了《倚天屠龙记》,这里使用Python通过jieba库进行小说全文分词,在通过wordcloud库基于小说中人物的登场效率(确切的说是人物名字的出现频率)生成词云图,登场率高的字体更大。先看看看效果,如下图:

    词云图

    环境搭建

    1.按照国际惯例Python库先装一波
    pip3 install jieba
    pip3 install worldcloud
    

    woroldcloud默认是不支持中文的,需要下载一个中文字体,或者指定系统的中文字体路径

    2.小说txt文本

    点击即可下载

    倚天屠龙记.txt

    3.创建自定义关键词

    自定义字典文件 “namedict.txt”。在这个字典文件中,记录了几个小说人物名,并标注词性为”nr“,代表名字,举个例子,作用就是告诉程序周芷若是一个人的名字,jieba分词虽然功能强大,但是对于不常见的,特定的小说人物名称的断句和分词表现就不是那么亮眼了。格式如下:

    iamge

    jieba和wordcloud功能简介

    1. 中文分词组件jieba

    功能1. 分词

    • jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2)cut_all参数用来控制是否采用全模式

    • jieba.cut_for_search方法接受一个参数:需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细

    import jieba
    
    txt = "我是西南林业大学一名大三的学生"
    seg_list = jieba.cut(txt,cut_all=True)
    print("[全模式]:", "/".join(seg_list))
    
    seg_list = jieba.cut(txt,cut_all= False)
    print("[精确模式]:","/".join(seg_list))
    
    seg_list = jieba.lcut_for_search(txt)
    print("[搜索引擎模式]:",'/'.join(seg_list))
    
    
    >>>
    [全模式]: 我/是/西南/林业/林业大学/业大/大学/一名/大三/的/学生
    [精确模式]: 我/是/西南/林业大学/一名/大三/的/学生
    [搜索引擎模式]: 我/是/西南/林业/业大/大学/林业大学/一名/大三/的/学生
    

    可以看到就文本分析而言,精确模式分词效果是比较好的,当不指定cut_all参数时,默认为False,即默认为精确模式

    功能2.添加自定义词典

    • 开发者可以指定自己自定义的词典,以便包含jieba词库里没有的词。虽然jieba有新词识别能力,但是自行添加新词可以保证更高的正确率

    • 用法: jieba.load_userdict(file_name) # file_name为自定义词典的路径

    • 词典格式和dict.txt一样,一个词占一行;每一行分三部分,一部分为词语,另一部分为词频,最后为词性(可省略),用空格隔开。

    西南林业大学是一所大学的名称,不希望产生分词错误,通过创建dict.txt 里面输入“西南林业大学”

    import jieba
    jieba.load_userdict('dict.txt')
    
    txt = "我是西南林业大学一名大三的学生"
    seg_list = jieba.cut(txt)
    print("[通过自定义词典,避免分词错误]:", "/".join(seg_list))
    
    
    >>>
    [通过自定义词典,避免分词错误]: 我/是/西南林业大学/一名/大三/的/学生
    

    功能3. 关键词提取

    • jieba.analyse.extract_tags(sentence,topK) #需要先import jieba.analyse
    • setence为待提取的文本
    • topK为返回几个TF/IDF权重最大的关键词,默认值为20

    以小说分词和得到的文本信息,如下图,提取出现频率最大的三个名字

    image
    import jieba
    import jieba.analyse
    
    
    with open('分词后.txt') as f:
        fc = f.read()
    topthree = jieba.analyse.extract_tags(fc,topK= 3)
    print('/'.join(topthree))
    
    >>>
    
    张无忌/张翠山/谢逊
    

    3.其他

    分析词性功能,可以标注句子分词后每个词的词性,后续通过词性进行关键词提取;
    并行分词
    原理:将目标文本按行分隔后,把各行文本分配到多个python进程并行分词,然后归并结果,从而获得分词速度的可观提升,windows系统下还不支持

    补充

    Python join() 方法用于将序列中的元素以指定的字符连接生成一个新的字符串。

    seq = ('一','二三','四五六')
    print('/'.join(seq))
    
    >>>
    一/二三/四五六
    
    for i in seq:
        print(i+'/',end = '')
    
    >>>
    一/二三/四五六/
    
    2.词云生成库wordcloud

    这个库的使用就更简单了,只需要设置背景图片,字体,等参数,具体参数的设置可以参考文档,设置collocations=False参数是为了使词云图避免出现重复的关键词。

    3.matplotlib库

    python的一个画图库,这里用到只是为了显示生产的词云图,不用也行,可以将生产的词云图先保存下来,再在文件夹中找到打开进行显示

    代码结构

    词云中的词汇只有角色的名字,没有其他无关词汇,这样才能更好地反映出角色的权重。

    整个程序的实现思路:

    分词 (函数)
        小说文本整体分词(jieba)
        构建自定义人名词典
        筛选关键词(人名)
    生成词云,绘制图片
    

    完整代码

    import jieba
    jieba.load_userdict("namedict.txt")
    import jieba.analyse as analyse
    from wordcloud import WordCloud
    from scipy.misc import imread
    import matplotlib.pyplot as plt
    
    # 获取关键词
    def get_words(file_name):
        with open(file_name,encoding='utf-8') as f:
            fiction_text = f.read()
        wordList = jieba.cut(fiction_text)  #分词
        print('小说分词完成...')
        allow_pos = ('nr',)                 #设置筛选参数为”nr“
        tags = jieba.analyse.extract_tags(fiction_text, topK=30, withWeight=False, allowPOS=allow_pos) #从原文文本original_text中,筛选词性为”nr“的前30个词汇作为关键词
        print('关键词筛选完成...')
        stags="/".join(tags)                         #将关键词用‘/’分隔
        with open("stags.txt","w") as f:
            f.write(stags)     #将关键词保存到stags.txt文件中(可供调试查看)
        outstr = ''
        for word in wordList:
            if word  in stags:   #与关键词字符串比较,只保留关键词
                if word != '/':
                    outstr += word 
                    outstr += "/"
        return outstr
    
    # 绘制词云
    def draw_wordcloud(strwords):
        backgroud_Image = plt.imread('backpic.png')
        cloud = WordCloud(width=1024, height=768,
                     background_color='white',mask=backgroud_Image,
                     font_path='/home/yhch/Downloads/kaiti.ttf',collocations=False,
                     max_font_size=400,random_state=50)
        word_cloud = cloud.generate(strwords)                # 生成词云数据
        return word_cloud
    
    if __name__ == '__main__':
        file_name = '/home/yhch/Downloads/yitian.txt'
        outstr = get_words(file_name)
        word_cloud=draw_wordcloud(outstr)
        plt.imshow(word_cloud)
        plt.axis('off')
        plt.show()
        word_cloud.to_file('yitian.jpg')
    

    分析结果

    生成的词云

    词云图

    因为分析的结果是图片,直观,简单,一目了然,这里就不再赘述了,同时也暴露出了小问题这里把武功 , 少林 等关键词也当成了人名进行操作,wordcloud有停用词方法,可以对不想显示的关键词语进行屏蔽;同时程序也有需要改进的地方,整个程序大概要运行2分钟才能结束,一部分原因是这部小说有一百万字,数据量还是比较大的,程序中频繁的IO操作也是有影响速度的主要因素,是考虑到将中间结果保存下来,可供调试,就懒得。先这样后续会改进更新。

    相关文章

      网友评论

        本文标题:[数据分析]基于人物登场率生成《倚天》词云图

        本文链接:https://www.haomeiwen.com/subject/gkjxwftx.html