利用Python看金庸武侠小说，程序员看书的正确方式！

作者: 48e0a32026ae | 来源:发表于2018-10-11 16:25 被阅读17次

利用Python看金庸武侠小说，程序员看书的正确方式！
推荐一本书
我读过的那些武侠作家们
关于写作这件事
40行Python代码采集金庸老爷子全部小说
金庸逝世：笑傲江湖成绝响，人间再无侠客行题文章
品读金庸：金庸笔下读者最喜欢的女子
派……
金庸，不会武功的一代大侠，武林宗师
金庸笔下的八大至高武学，论撩妹，哪招最强？

金庸老爷子一共写了15部武侠小说，它们分别是：

《飞狐外传》（1960年）

《雪山飞狐》（1959年）

《连城诀》（1963年）

《天龙八部》（1963年）

《射雕英雄传》（1957年）

《白马啸西风》（1961年）

《鹿鼎记》（1969年）

《笑傲江湖》（1967年）

《书剑恩仇录》（1955年）

《神雕侠侣》（1959年）

《侠客行》（1965年）

《倚天屠龙记》（1961年）

《碧血剑》（1956年）

《鸳鸯刀》（1961年）

《越女剑》（1970年）

我们现在就用 Python 来探索一下金庸小说中的武侠世界吧。

在处理小说之前，我们需要先做一些准备工作。

因为涉及中文字符，所以我们使用 __future__ 中 Python 3 的特性，将所有的字符串转为 unicode。

from __future__ import unicode_literals

再来我们解决图像里中文字符显示的问题，Matplotlib虽然支持 unicode 编码，但是直接输出中文字体会出现问题。

import numpy as np

import scipy as sp

import matplotlib.pyplot as plt

%matplotlib inline

x = range(10)

plt.plot(x)

plt.title("中文")

plt.show()

出现上图的原因是它找不到合适的中文字体去显示中文，为此，我们可以去寻找一些支持中文的字体来进行设置。

Windows 7 及以上的系统中，字体位置为 C:/Windows/Fonts，例如：

宋体：C:/Windows/Fonts/simsum.ttc

Linux 系统可以通过 fc-list 命令查看已有的字体和相应的位置，例如：

/usr/share/fonts/truetype/osx-font-family/Songti.ttc: Songti TC,宋體-繁,宋体-繁:style=Bold,粗體,粗体

/usr/share/fonts/truetype/osx-font-family/Devanagari Sangam MN.ttc: Devanagari Sangam MN,देवनागरी संगम एम॰एन॰:style=Bold,粗體,Fed,Fett,Puolilihava,Gras,Grassetto,ボールド,볼드체,Vet,Fet,Negrito,Жирный,बोल्ड,粗体,Negrita

/usr/share/fonts/truetype/osx-font-family/Iowan Old Style.ttc: Iowan Old Style,Iowan Old Style Black:style=Black Italic,Italic

也可以从网上直接下载字体

比如 Yahei Consolas 的字体 YaHei.Consolas.1.11b.ttf。

找到了字体的位置，我们可以使用 matplotlib.font_manager 中的 FontProperties 导入字体：

font_xxx = FontProperties(fname="/usr/share/fonts/truetype/osx-font-family/Songti.ttc")

font_xxx = FontProperties(fname="C://Windows//Fonts//simsum.ttc")

为了方便，我们不使用字体的绝对路径导入，而是将需要的字体放在程序对应的文件夹下：

YaHei.Consolas.1.11b.ttf

from matplotlib.font_manager import FontProperties

font_yahei_consolas = FontProperties(fname="YaHei.Consolas.1.11b.ttf")

在绘图的时候进行设置：

x = range(10)

plt.plot(x)

plt.title("中文",

fontproperties=font_yahei_consolas,

fontsize=14)

plt.show()

我们从网上找到金庸小说的 txt 全文，放在 novels 文件夹中：

!ls novels

书剑恩仇录.txt天龙八部.txt碧血剑.txt 越女剑.txt 飞狐外传.txt

侠客行.txt射雕英雄传.txt神雕侠侣.txt 连城诀.txt 鸳鸯刀.txt

倚天屠龙记.txt白马啸西风.txt笑傲江湖.txt 雪山飞狐.txt 鹿鼎记.txt

接着，我们先找到金庸小说中所有出场的人物，放到 names.txt 文件中，其格式为：

小说1

人物1 人物2 ……

小说2

人物1 人物2 ……

小说3

人物1 人物2 ……

……

除此之外，另外有两个文本记录出场的门派（bangs.txt）和武功（kongfu.txt），用回车隔开。

with open('names.txt') as f:

# 去掉结尾的换行符

data = [line.strip().decode('utf8') for line in f.readlines()]

novels = data[::2]

names = data[1::2]

novel_names = {k: v.split() for k, v in zip(novels, names)}

for name in novel_names['天龙八部'][:20]:

print name

刀白凤

丁春秋

马夫人

马五德

小翠

于光豪

巴天石

不平道人

邓百川

风波恶

甘宝宝

公冶乾

木婉清

包不同

天狼子

太皇太后

王语嫣

乌老大

无崖子

云岛主

我们来看看人物在小说中的出场次数统计。

显然出场次数越多，自然主角光环越强，我们定义一个函数寻找小说中主角光环最强的几个人：

def find_main_charecters(novel, num=10):

with open('novels/{}.txt'.format(novel)) as f:

data = f.read().decode('utf8')

count = []

for name in novel_names[novel]:

count.append([name, data.count(name)])

count.sort(key=lambda x: x[1])

_, ax = plt.subplots()

numbers = [x[1] for x in count[-num:]]

names = [x[0] for x in count[-num:]]

ax.barh(range(num), numbers, color='red', align='center')

ax.set_title(novel,

fontsize=14,

fontproperties=font_yahei_consolas)

ax.set_yticks(range(num))

ax.set_yticklabels(names,

fontsize=14,

fontproperties=font_yahei_consolas)

天龙八部：

find_main_charecters("天龙八部")

显然，就《天龙八部》来说，萧（乔）峰，段誉，虚竹这三兄弟的主角光环最强。

再看射雕三部曲：

find_main_charecters("射雕英雄传")

find_main_charecters("神雕侠侣")

find_main_charecters("倚天屠龙记")

接下来，我们将使用一些机器学习的观点来处理这些小说。

Word2Vec 是一款将词表征为实数值向量的高效工具，原理就不过多介绍了，感兴趣的可以自行搜索，

gensim 包提供了一个 Python 版的实现。

源代码地址：https://github.com/RaRe-Technologies/gensim

官方文档地址：http://radimrehurek.com/gensim/

首先安装 gensim：

pip install gensim

安装完成之后，导入这个包：

import gensim

虽然我们安装了 gensim，但我们还不可以直接使用它来进行 Word2Vec 的操作，因为 Word2Vec 中的词默认是用空格分隔的，而中文小说显然不符合这个要求，为此，我们需要对中文进行分词。

一个比较好用的 Python 中文分词包叫做 jieba （结巴）。

源代码地址：https://github.com/fxsjy/jieba

安装 jieba：

pip install jieba

导入：

import jieba

jieba 包具有一定的识别新词的能力，不过为了得到更准确的分词结果，我们可以将人名导入 jieba 库的字典，除此之外，我们还加入门派和武功的专有名词：

for _, names in novel_names.iteritems():

for name in names:

jieba.add_word(name)

with open("kungfu.txt") as f:

kungfu_names = [line.decode('utf8').strip()

for line in f.readlines()]

with open("bangs.txt") as f:

bang_names = [line.decode('utf8').strip()

for line in f.readlines()]

for name in kungfu_names:

jieba.add_word(name)

for name in bang_names:

jieba.add_word(name)

我们按照行来处理文本，进行分词：

novels = ["书剑恩仇录",

"天龙八部",

"碧血剑",

"越女剑",

"飞狐外传",

"侠客行",

"射雕英雄传",

"神雕侠侣",

"连城诀",

"鸳鸯刀",

"倚天屠龙记",

"白马啸西风",

"笑傲江湖",

"雪山飞狐",

"鹿鼎记"]

sentences = []

for novel in novels:

print "处理：{}".format(novel)

with open('novels/{}.txt'.format(novel)) as f:

data = [line.decode('utf8').strip()

for line in f.readlines()

if line.decode('utf8').strip()]

for line in data:

words = list(jieba.cut(line))

sentences.append(words)

处理：书剑恩仇录

处理：天龙八部

处理：碧血剑

处理：越女剑

处理：飞狐外传

处理：侠客行

处理：射雕英雄传

处理：神雕侠侣

处理：连城诀

处理：鸳鸯刀

处理：倚天屠龙记

处理：白马啸西风

处理：笑傲江湖

处理：雪山飞狐

处理：鹿鼎记

使用 gensim 中的默认参数进行训练：

model = gensim.models.Word2Vec(sentences,

size=100,

window=5,

min_count=5,

workers=4)

有了模型之后，我们可以进行一些简单而有趣的测试。

首先看与乔峰相似的人：

for k, s in model.most_similar(positive=["乔峰", "萧峰"]):

print k, s

段正淳 0.839533925056

慕容复 0.800726354122

虚竹 0.796926677227

童姥 0.791711509228

谢烟客 0.787050366402

游坦之 0.786818385124

余鱼同 0.780444204807

袁承志 0.779631733894

钟万仇 0.759801149368

贝海石 0.756160736084

乱入了一只童姥，其他都是男性角色。

再看看与阿朱相似的人：

for k, s in model.most_similar(positive=["阿朱"]):

print k, s

钟灵 0.789930582047

阿紫 0.77720785141

方怡 0.774438858032

钟夫人 0.767169654369

香香公主 0.763835728168

王语嫣 0.761606991291

青青 0.761157155037

仪琳 0.75483584404

木婉清 0.751208424568

段誉 0.745343744755

这回乱入了一只段誉。

除了人物，我们可以看看门派：

for k, s in model.most_similar(positive=["丐帮"]):

print k, s

长乐帮 0.807791054249

雪山派 0.793763160706

峨嵋派 0.792181968689

天地会 0.789434850216

门人 0.785883545876

红花会 0.78480899334

恒山派 0.779587745667

嵩山派 0.77581256628

全真教 0.763592064381

魔教 0.746910750866

武功：

for k, s in model.most_similar(positive=["降龙十八掌"]):

print k, s

打狗棒法 0.89123404026

空明拳 0.890258312225

太极拳 0.884406626225

一阳指 0.874251723289

心法 0.874069094658

八卦掌 0.864349603653

绝招 0.864094853401

乾坤大挪移 0.858512759209

六合拳 0.852675139904

拳法 0.848574995995

在 Word2Vec 的模型里，有过“中国-北京=法国-巴黎”的例子，这里我们也可以找到这样的例子：

def find_relationship(a, b, c):

"""

返回 d

a与b的关系，跟c与d的关系一样

"""

d, _ = model.most_similar(positive=[c, b], negative=[a])[0]

print "给定“{}”与“{}”，“{}”和“{}”有类似的关系".format(a, b, c, d)

find_relationship("段誉", "段公子", "乔峰")

给定“段誉”与“段公子”，“乔峰”和“乔帮主”有类似的关系

类似的：

# 情侣对

find_relationship("郭靖", "黄蓉", "杨过")

# 岳父女婿

find_relationship("令狐冲", "任我行", "郭靖")

# 非情侣

find_relationship("郭靖", "华筝", "杨过")

给定“郭靖”与“黄蓉”，“杨过”和“小龙女”有类似的关系

给定“令狐冲”与“任我行”，“郭靖”和“黄药师”有类似的关系

给定“郭靖”与“华筝”，“杨过”和“绿萼”有类似的关系

以及，小宝你是有多爱康熙：

# 韦小宝

find_relationship("杨过", "小龙女", "韦小宝")

find_relationship("令狐冲", "盈盈", "韦小宝")

find_relationship("张无忌", "赵敏", "韦小宝")

给定“杨过”与“小龙女”，“韦小宝”和“康熙”有类似的关系

给定“令狐冲”与“盈盈”，“韦小宝”和“康熙”有类似的关系

给定“张无忌”与“赵敏”，“韦小宝”和“康熙”有类似的关系

除了人物之间的关系，还可以看看人物与门派武功之间的关系：

find_relationship("郭靖", "降龙十八掌", "黄蓉")

find_relationship("武当", "张三丰", "少林")

find_relationship("任我行", "魔教", "令狐冲")

给定“郭靖”与“降龙十八掌”，“黄蓉”和“打狗棒法”有类似的关系

给定“武当”与“张三丰”，“少林”和“灭绝师太”有类似的关系

给定“任我行”与“魔教”，“令狐冲”和“恒山派”有类似的关系

之前我们对文本进行 Word2Vec 的结果，是将一个中文词组，映射到了一个向量空间，因此，我们可以利用这个向量表示的空间，对这些词进行聚类分析。

因为全部小说中的人物太多，我们考虑从单本小说进行入手，先把天龙八部中的人物的词向量拿出来：

all_names = []

word_vectors = None

for name in novel_names["天龙八部"]:

if name in model:

all_names.append(name)

if word_vectors is None:

word_vectors = model[name]

else:

word_vectors = np.vstack((word_vectors, model[name]))

all_names = np.array(all_names)

聚类我们可以使用很多方法，这里我们先考虑 Kmeans：

from sklearn.cluster import KMeans

如果只分成3类，那么很明显地可以将众人分成主角，配角，跑龙套的三类：

N = 3

label = KMeans(N).fit(word_vectors).labels_

for c in range(N):

print "类别{}：".format(c+1)

for idx, name in enumerate(all_names[label==c]):

print name,

if idx % 10 == 9:

类别1：

刀白凤丁春秋马夫人巴天石邓百川风波恶公冶乾包不同乌老大云中鹤

白世镜本因过彦之司马林玄慈玄寂玄难叶二娘左子穆李秋水

全冠清阮星竹朱丹臣阿碧波罗星鸠摩智耶律洪基苏星河段延庆范骅

赵钱孙哲罗星钟万仇秦红棉徐长老崔百泉萧远山褚万里慕容博谭婆

薛慕华

类别2：

马五德小翠不平道人甘宝宝天狼子太皇太后无崖子止清天山童姥本参

本观本相出尘子冯阿三古笃诚兰剑平婆婆石嫂司空玄玄苦

玄生玄痛耶律莫哥李春来李傀儡刘竹庄朴者和尚许卓诚竹剑阿洪

阿胜陈孤雁来福儿努儿海宋长老苏辙吴长风辛双清严妈妈余婆婆

岳老三张全祥单伯山单季山单小山单正段正明宗赞王子苟读华赫艮

郁光标卓不凡范百龄哈大霸吴光胜梦姑神山上人神音室里姚伯当

幽草龚光杰贾老者康广陵容子矩桑土公唐光雄奚长老诸保昆崔绿华

符敏仪菊剑梅剑游骥游驹傅思归葛光佩缘根鲍千灵智光大师

瑞婆婆端木元黎夫人谭公赫连铁树谭青摘星子慧方慧观慧净

慧真穆贵妃吴领军易大彪

类别3：

木婉清王语嫣乔峰萧峰阿朱阿紫段誉段正淳钟灵虚竹

游坦之慕容复

我们把众龙套去掉，再聚一次：

N = 4

c = sp.stats.mode(label).mode

remain_names = all_names[label!=c]

remain_vectors = word_vectors[label!=c]

remain_label = KMeans(N).fit(remain_vectors).labels_

for c in range(N):

print "类别{}：".format(c+1)

for idx, name in enumerate(remain_names[remain_label==c]):

print name,

if idx % 10 == 9:

类别1：

刀白凤马夫人风波恶包不同乌老大白世镜司马林叶二娘左子穆李秋水

阮星竹阿碧苏星河赵钱孙钟万仇秦红棉崔百泉萧远山慕容博谭婆

薛慕华

类别2：

木婉清王语嫣阿朱阿紫段誉钟灵虚竹

类别3：

丁春秋云中鹤乔峰萧峰鸠摩智段延庆段正淳游坦之慕容复

类别4：

巴天石邓百川公冶乾本因过彦之玄慈玄寂玄难全冠清朱丹臣

波罗星耶律洪基范骅哲罗星徐长老褚万里

可以看到，在类别2中，段家的儿女被聚在了一起，而萧峰则乱入了一群反派人士中。

换一本小说：

all_names = []word_vectors = Nonefor name in novel_names["倚天屠龙记"]:

if name in model:

all_names.append(name)

if word_vectors is None:

word_vectors = model[name]

else:

word_vectors = np.vstack((word_vectors, model[name]))

all_names = np.array(all_names)

这次采用层级聚类的方式，调用的是 Scipy 中层级聚类的包：

import scipy.cluster.hierarchy as sch

Y = sch.linkage(word_vectors, method="ward")

_, ax = plt.subplots(figsize=(10, 40))

Z = sch.dendrogram(Y, orientation='right')

idx = Z['leaves']

ax.set_xticks([])

ax.set_yticklabels(all_names[idx],

fontproperties=font_yahei_consolas)

ax.set_frame_on(False)

plt.show()

红色聚类区的上半部分是与张教主直接相关的人物：两个女人赵敏和周芷若；父母和义父。

而红色聚类区的下半部分主要是明教与武当中与张无忌相关的部分。反派角色和一众龙套都被放在了下半区。

除了人物，我们还可以考虑对武功进行聚类分析：

all_names = []

word_vectors = None

for name in kungfu_names:

if name in model:

all_names.append(name)

if word_vectors is None:

word_vectors = model[name]

else:

word_vectors = np.vstack((word_vectors, model[name]))

all_names = np.array(all_names)

Y = sch.linkage(word_vectors, method="ward")

_, ax = plt.subplots(figsize=(10, 35))

Z = sch.dendrogram(Y, orientation='right')

idx = Z['leaves']

ax.set_xticks([])

ax.set_yticklabels(all_names[idx],

fontproperties=font_yahei_consolas)

ax.set_frame_on(False)

plt.show()

反正我只知道下面绿色部分的武功，红色部分的好多都是第一次听说。

最后是门派的聚类：

all_names = []

word_vectors = None

for name in bang_names:

if name in model:

all_names.append(name)

if word_vectors is None:

word_vectors = model[name]

else:

word_vectors = np.vstack((word_vectors, model[name]))

all_names = np.array(all_names)

Y = sch.linkage(word_vectors, method="ward")

_, ax = plt.subplots(figsize=(10, 25))

Z = sch.dendrogram(Y, orientation='right')

idx = Z['leaves']

ax.set_xticks([])

ax.set_yticklabels(all_names[idx],

fontproperties=font_yahei_consolas)

ax.set_frame_on(False)

plt.show()

大概跟武功是一样的分布，上面一堆龙套门派，主角出场的门派都在绿色区域，这大概就是所谓的绿叶配鲜花吧。

以上。

飞雪连天射白鹿，笑书神侠倚碧鸳。

利用Python看金庸武侠小说，程序员看书的正确方式！
金庸老爷子一共写了15部武侠小说，它们分别是：《飞狐外传》（1960年）《雪山飞狐》（1959年）《连城诀》...
推荐一本书
在这个寒假里我迷上了金庸。虽然进入金庸去世了，但是我还是爱看金庸。金庸写的是武侠小说，我最喜欢看的就是武侠小说...
我读过的那些武侠作家们
今天还是继续说武侠小说吧，算是我一个金迷对金庸先生的纪念。武侠小说作家里，看过最多的就是金庸和古龙吧，金庸小说看...
关于写作这件事
小时候就很喜欢看书，看各种各样的书籍，看金庸，看古龙，看各种武侠小说，怀揣一颗仗剑走天涯的侠女之心。偶尔还会看看鬼...
40行Python代码采集金庸老爷子全部小说
我们今天来用Python爬虫爬取金庸所有的武侠小说，网址为：http://jinyong.zuopinj.com/...
金庸逝世：笑傲江湖成绝响，人间再无侠客行题文章
武侠小说泰斗查良镛，笔名金庸 1924-2018 武侠小说泰斗金庸逝世，享年94岁。在多少年前，金庸先生就已经...
品读金庸：金庸笔下读者最喜欢的女子
金庸武侠小说广受欢迎，还被翻译为多国语言名扬海外，不仅仅是金庸武侠小说情节生动，场面宏大，更在于金庸武侠小说中蕴含...
派……
可能武侠小说看多了，看到π居然就想到派……中意古墓派咯。你喜欢看金庸吗？
金庸，不会武功的一代大侠，武林宗师
在现代武侠小说家中，金庸无疑具有宗师的身份，是名副其实的“武林盟主”。金庸是现代武侠小说形貌的塑造者，金庸以后的...
金庸笔下的八大至高武学，论撩妹，哪招最强？
我不是金庸迷，但我非常敬仰金庸老先生。金庸武侠小说诞生于上世纪50-70年代，金庸老先生写武侠小说的时候我可能还...