美文网首页闲的D疼
spark+jieba分词+wordclound生成斗破苍穹词云

spark+jieba分词+wordclound生成斗破苍穹词云

作者: 我傻笑你跑掉 | 来源:发表于2019-08-12 17:32 被阅读0次

最近学习了spark相关算子, 闲来手痒,就利用spark来计算一下天蚕土豆小说《斗破苍穹》中的词谱

使用到的知识如下:

  • hdfs的基本读写操作
  • spark计算框架
  • jieba中文分词
  • word_cloud词云
  • python基础 pyspark、numpy、Image与matplotlib库

开始

首先下载小说,下载地址此处就不贴了,请自行百度

过滤

下载完的txt中,包含很多特殊字符,这些字不希望出现在最终统计中,因此先过滤

#! /usr/bin/env python3
import re

replace_list = []


# 匹配非中文字符 逐个字符处理
def find_unchinese(file):
    pattern = re.compile(r'[\u4e00-\u9fa5]')
    unchinese = re.sub(pattern, "", file)
    for i in unchinese:
        if i != "\n":
            replace_list.append(i)


# 逐行读取,取出非中文字符
with open("doupo.txt") as f:
    for line in f:
        find_unchinese(line)
# 去重复
replace_list = list(set(replace_list))
print(replace_list, len(replace_list))

with open("doupo_new.txt", "w+") as b:
    with open("doupo.txt") as f:
        for line in f:
            for i in replace_list:
                line = line.replace(i, "", -1)
                line = line.replace(" ", "", -1)
            # 去掉特殊字符
            if line.strip() != "":
                b.writelines(line) if f != "" else ""

过滤完成后的小说就只包含中文部分


过滤后的小说.png

准备停用词表

停用词是一类特殊的词,去除这些词可以提高检索速度,推荐使用哈工大的停用词表,下载地址

存入hdfs中

将处理好的小说和停用词词库置入hdfs中

hdfs dfs -copyFromLocal  doupo_new.txt /doupo_new.txt
hdfs dfs -copyFromLocal  stop_words.txt /stop_words.txt

下载字体

word_cloud默认字体不支持中文,会造成中文乱码,所以需要预先准备字体,此处使用旁门正道字体

旁门正道是个人制作并声明过的永久免费的字体,可以避免很多版权麻烦。

准备背景图

找一张背景为白色的背景图,非白色部分最终会填充上词,从网上找了张,侵删


背景图

下载相关库

需要用到pyspark、jieba、word_cloud、 numpy、matplotlib等python库文件,利用pip提前准备好

利用pyspark编写spark任务

万事俱备,准备编写脚本并生成词图

# -*- coding: utf-8 -*-
import jieba
import numpy as np
import matplotlib.pyplot as plt
from PIL import Image
from wordcloud import WordCloud, ImageColorGenerator
from pyspark.sql import SparkSession


# top1 从hdfs中读取文件到textFile中
spark = SparkSession.builder.master("local").config("spark.hadoop.mapreduce.job.run-local", "true").getOrCreate()
context = spark.sparkContext

# 加载停动词词库
stop_word_rdd = context.textFile("hdfs://127.0.0.1:9000/stop_words.txt")
stop_words = set(stop_word_rdd.collect())


# 中文分词 去除停用词 这里使用到了集合运算
def get_word(line):
    return set(jieba.cut(line, cut_all=False)) - stop_words


# 最终结果为(word,num)格式,需要根据num排序
def sort_result(elem):
    return elem[1]


rdd = context.textFile("hdfs://127.0.0.1:9000/c.txt")
new_rdd = rdd.flatMap(lambda line: get_word(line))
result = new_rdd.map(lambda word: (word, 1)).reduceByKey(lambda x, y: x + y).collect()
result.sort(key=sort_result, reverse=True)

# 取前100个关键词生成画像
words_dict = dict()
for i in result[:500]:
    words_dict[i[0]] = i[1]

 # 引入背景图
color_mask = np.array(Image.open("background.jpeg")) 
cloud = WordCloud(
    font_path="PangMenZhengDaoBiaoTiTi-1.ttf",
    mask=color_mask,
    background_color='white',
    max_words=100,
    min_font_size=10,
    max_font_size=40,
    collocations=False,
    random_state=42
)
wCloud = cloud.generate_from_frequencies(words_dict)
image_colors = ImageColorGenerator(color_mask)
plt.imshow(wCloud, interpolation="bilinear")
plt.axis("off")
plt.savefig("2.jpg")
## 根据背景图,自动设置相似的颜色
plt.imshow(wCloud.recolor(color_func=image_colors), interpolation="bilinear")
plt.axis("off")
plt.savefig("4.jpg")

最终效果

2.jpg 4.jpg

相关文章

  • spark+jieba分词+wordclound生成斗破苍穹词云

    最近学习了spark相关算子, 闲来手痒,就利用spark来计算一下天蚕土豆小说《斗破苍穹》中的词谱 使用到的知识...

  • Python分析《我不是药神》豆瓣评论

    读取 Mongo 中的短评数据,进行中文分词 对分词结果取 Top50 生成词云 生成词云效果 看来网上关于我不是...

  • 利用Python生成词云

    用到的模块 matplotlib 用来画图 wordcloud 生成词云 jieba 中文分词 numpy ...

  • Python3 生成中文词云

    前提 Python 生成中文词云主要用到两个依赖库: jieba:中文分词工具 wordcloud:词云生成工具 ...

  • 寒假来了,先订几个小目标

    1、重读《斗破苍穹》 之前看了《斗破苍穹》的动漫,感觉还原的还不错,所以假期打算再看一遍原文,重读《斗破苍穹》,看...

  • 《斗破苍穹》为何恐怖如斯?

    9月3日,《斗破苍穹》电视剧开播,更多的观众知道了“恐怖如斯”这个词。 《斗破苍穹》改编自天蚕土豆的同名小说,在小...

  • 斗破苍穹

    今天我早起醒来的第一件事,就是斗破苍穹。开播了,剧情改了,薰儿,呆了。可能什么样的原选择对与原著粉来说都是不合心意...

  • 斗破苍穹

    三十年河东,三十年河西,莫欺少年穷! 看到这句话你会想到什么? 电视剧, 什么电视剧? 【斗破苍穹】 真人版斗破苍...

  • 斗破苍穹

    修行路上最大的敌人永远是自己,只要打败自己的心魔,就是黑暗来临,也不用害怕

  • 斗破苍穹

    第一章 陨落的天才 “斗之力,三段!” 望着测验魔石碑上面闪亮得甚至有些刺眼的五个大字,少年面无表情,唇角有...

网友评论

    本文标题:spark+jieba分词+wordclound生成斗破苍穹词云

    本文链接:https://www.haomeiwen.com/subject/uqaujctx.html