数据分析告诉你，鲁迅的文章真的是匕首投枪

作者: 天善智能 | 来源:发表于2018-07-24 15:44 被阅读107次

数据分析告诉你，鲁迅的文章真的是匕首投枪
清清净净瞄一眼《山海经》
文字如刀，小心伤人
唐诗闲读：“可怜夜半虚前席，不问苍生问鬼神”
鲁迅先生的深意
湘行散记读后感
“我们常把自己的写作冲动误认为自己的写作才能，自以为要写就意味着
被时代嫌弃的风骨
七绝•投枪醒梦
清水出芙蓉

欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！

对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tsaiedu，并注明消息来源，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。

天善学院2018年度SVIP 998特惠即将结束！https://www.hellobi.com/svip一众一线名企名师，一波数据分析+人工智能+商业智能绝对好课！

作者：挖数腾讯数据产品经理 & 段子手

个人微信公号：washu66

我们读一篇文章时，很容易感受到作者的情绪，作者是悲伤的，笔下的文字可能字字泣血，作者是快乐的，笔下的文字也会跳舞。

小时候读鲁迅的《纪念刘和珍君》，只觉得作者的愤怒和绝望喷涌而出。

可是我实在无话可说。我只觉得所住的并非人间。四十多个青年的血，洋溢在我的周围，使我艰于呼吸视听，那里还能有什么言语？长歌当哭，是必须在痛定之后的。而此后几个所谓学者文人的阴险的论调，尤使我觉得悲哀。我已经出离愤怒了。我将深味这非人间的浓黑的悲凉；以我的最大哀痛显示于非人间，使它们快意于我的苦痛，就将这作为后死者的菲薄的祭品，奉献于逝者的灵前。

这种字里行间的激烈情感，来自文章里一些关键词语，这些关键词语可以是形容词，比如“阴险”，“悲哀”，“愤怒”，“悲凉”，“哀痛”；可以是名词，比如“血”，“苦痛”，“死者”，“祭品”；可以是动词，比如“哭”。

那有没有可能有一种情感分数，可以来量化一篇文章的情感？

文本分析有一种场景，是通过大量的语料训练一个情感词库，这个词库有每一个词语对应的情感分数，分数>0且越高，表示情感越积极，分数<0且越低，表示情感越消极。

在网上一番搜刮，真的找到这样一个词库，这个词库有11万多个词，每个词都有其对应的情感分数，比如红红火火这个词，它的情感分数高达 5.73，是一个非常正面积极的词语，而像新加坡，黑猩猩这种名词，他们是中性词，基本不含情感，他们的分数在0到1之间，一些比较消极的形容词，比如孤苦伶仃，它的分数是-2.58，或者一些消极的动词比如发飙，它的分数是-2.62。

把一篇文章进行分词，然后挨个匹配情感词库对应的分数，再求个均值，于是一篇文章的情感就量化粗来了！

挽起袖子，说肛就肛！用Python分词并匹配情感词库的分数

article=open('d:/python/xx.txt','r').read()

words=pd.DataFrame(jieba.cut(article))

words=words.rename(columns={0:'word'})score=pd.read_table('d:/python/score.txt',encoding='utf8',sep=' ',names=['word','score'])

finish=pd.merge(left=words, right=score, how='left', left_on='word', right_on='word')

finish=finish[finish.score.isnull()==False]

print finish.mean()

结果发现《纪念刘和珍君》虽然通篇有很多绝望，消极的词汇，但也有很多积极有力量的词汇，两者一中和，情感分数在中间的位置 (oﾟωﾟo)

文章里边情感分数最消极的是：杀害-3.69，噩耗-3.41，血痕-3.39；

文章里边情感分数最积极的是：师友3.36，永存3.03，奉献2.83。

我给迅哥的几篇文章都输出了情感分数，有以下的分布：

看到《药》的负分，脑海中浮现出那个人血馒头，那种压抑，悲凉和血雾弥漫的画面感，55，不敢看，相对来说《从百草园到三味书屋》行文还是较为轻松的。

在那个时代，除了拿着匕首投枪，横眉冷对千夫指的鲁迅，也有骑着云中鹤，逛着窑子的徐志摩，我们来看看摩哥的行文，会不会跟迅哥有很大的不同呢？

以下是摩哥文章的情感分布：

果然，摩哥积极的娱乐精神也渗透在他的行文里。

有趣的地方来了，我们知道文章有时可以变为音乐，比如一些曼妙的诗词，配上旋律，那种画面感会更明显，像邓丽君的《清平调》，王菲的《明月几时有》，或者王海玲唱的那首《忘了我是谁》（李敖的诗），还有那首《只爱一点点》，也是李敖的诗。

那么，文章是不是也可以变成一幅画？

把文章的每个词作为一个色块，跟情感分数关联，情感越积极颜色越亮，情感越消极颜色越深暗，这样不就形成了一副图画？我把它称为文章的“情感地图”。

朱自清的《背影》分词后是794个词，把这794个词变成一个28*28的矩阵，矩阵的排列跟文章从左到右，从上到下的行文是一致的，再把这些矩阵的颜色跟每个词的情感分数关联，Python代码如下：

article=open('c:/python/hot/beiying.txt','r').read()words=pd.DataFrame(jieba.cut(article))

words=words.rename(columns={0:'word'})score=pd.read_table('c:/python/hot/score.txt',encoding='utf8',sep=' ',names=['word','score'])

finish=pd.merge(left=words, right=score, how='left', left_on='word', right_on='word')

finish=finish[finish.score.isnull()==False] finish=finish[0:784]finish=finish['score'].reshape(28,-1)

plt.matshow(finish, cmap=plt.cm.hot, vmin=-0.5, vmax=4)

plt.colorbar()

plt.show()

生成的《背影》的“情感地图”

图中的黑色块，是情感分数在-0.5以下的词，颜色越亮黄的词，情感越积极，可以看到在文末，有1个情感很积极的词，看看是什么词

在晶莹的泪光中，又看见那肥胖的、青布棉袍、黑布马褂的背影。唉！我不知何时再能与他相见！

清哥，我们知道您爱您的父亲 Q_Q

这是徐志摩的《翡冷翠山居闲话》生成的31*32的“情感地图”

满眼都是欢快的黄色。

文学很美，鲁迅的文章读来让人警醒，徐志摩的诗歌读来让人心情愉悦，读他们的文章，你能感受到他们的精雕细琢和他们的脉脉情感，你能感受到那个年代的抱负，那种拳拳的赤子心。

反观现在，充斥着各种情感公众号，24小时霸占你的时间，有一些还有毒（说的就是你，咪蒙），这些文章左一个“小奶狗”，右一个“出轨”，无时不刻煽动你的情绪，给你喂毒，你还甘之若饴，我真想说一句呜呼哀哉！！

同意的请转发 (╬￣皿￣)凸

End

一套SVIP课程，15选8，每套课程均价112！知识付费的时代，一次旅游的钱便能收获8大全方位、多体系的课程！

更有全场六折优惠课程，为你加油助力！

数据分析告诉你，鲁迅的文章真的是匕首投枪
欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞...
清清净净瞄一眼《山海经》
我最早对《山海经》产生兴趣，是从鲁迅的《阿长与山海经》这篇文章开始的。鲁迅的文章都是“匕首”和“投枪”，...
文字如刀，小心伤人
以前读初中的时候，读到鲁迅的文章，评价他的文章像“象投枪，象匕首，直刺向黑暗势力”。那时是似懂非懂。我们生在这个...
唐诗闲读：“可怜夜半虚前席，不问苍生问鬼神”
鲁迅先生对汉代的一个文人贾谊很是赞赏，他评价贾谊的文章是“西汉鸿文”，当然，这或许是因为鲁迅先生多写“匕首投枪”式...
鲁迅先生的深意
一说鲁迅先生嬉笑怒骂，皆成文章。又说鲁迅先生文章像匕首，像投枪。不处在他处的社会背景下，没有尖锐社会矛盾下的思想深...
湘行散记读后感
在读到沈先生的文章之前，大多都是读的鲁迅的文章，他这个人如刀笔吏，说是他的文章，像投枪、像匕首。这种锋芒毕露的文章...
“我们常把自己的写作冲动误认为自己的写作才能，自以为要写就意味着
“鲁迅的幽默,尖锐、泼辣,是匕首,是投枪;而钱钟书的幽默,诙谐、戏谑,是带刺的玫瑰,是越咀嚼越有味道的橄榄。”...
被时代嫌弃的风骨
读中学时非常喜欢鲁迅先生及其作品，记得当时还因此受到过校领导的批评。校领导说，鲁迅先生的作品如“匕首投枪”，...
七绝•投枪醒梦
混沌荒园醒沉梦，投枪怒对冷横眉。孤身敢指青天换，三味书铭后世碑。（平水韵，四支）投枪：匕首投枪。匕首，短剑；...
清水出芙蓉
最好的文字长啥样？是匕首，是投枪吗？太犀利，太锋利，令人不寒而栗，况且太平太久，匕首与投枪是八十多年前的事，人们见...