美文网首页百科咦。时下热点
我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么

我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么

作者: A7TuG3 | 来源:发表于2017-02-07 15:04 被阅读5048次

听了这么多年民谣,我有一种感觉,就是很多歌都似曾相识,但是仔细一想,又哪一首都想不起来,为了搞清楚这群流浪在祖国大地的现代游吟诗人们都在唱些什么,我做了一些数据分析的工作。

我选取了大约30个或比较大众,或比较小众的民谣歌手和乐队,包括李志,夭十三,赵雷,宋冬野,周云蓬,逃跑计划等等,为了设立参照,我还取了一些其他风格的乐队,比如老一些的汪峰,窦唯,朴树和新一些的低苦艾,谢天笑,反光镜,草东等等。

我首先写了一个爬虫,它可以根据歌手或乐队的名字来自动抓取这个歌手的所有歌,为了保证平衡,我最多只抓取前50首歌,老实说,大多数歌手被人熟知的歌并不会超过这个数字。

这样,我得到了小一百个装满歌词的文件,我都能感觉到从里面溢出来的文艺了。

接下来,我开始了对这些歌词(约42万字)的分析。

首先是情绪分析,通过对这些歌词的自然语言处理,我知道了不同歌手们吟唱的到底是开心还是不开心的事情:

数值的分布比较平均,但大致可以看得出有三个分类,一类是特别开心的,例如郝云。但是我一开始也不太懂,为什么丢火车的情绪也这么高,后来听了几遍他们的歌,发现他们虽然唱腔惨兮兮的,但是歌词还是充满正能量的,丢火车乐队歌词中出现次数最多的三个词分别是「永远」「晚安」「倔强」,这些都是正面情绪的词。第二类则是比较忧伤的,以我们熟悉的逼哥为代表,他们的歌词中充斥着孤独,沉默,泪水等词语。虽不暴力,但是多少有一些黑暗。

第三类则以赵雷为代表,比较平静,就像一个朋友给你讲故事,不疾不徐,娓娓道来,里面也有开心,也有难过,但总体情绪趋于中值。这也许解释了为什么赵雷这么晚才火起来的原因——平淡的情绪较难快速给人以强烈的冲击。但无论如何,好的音乐总会被人们发掘。

基于某种趣味,我又分析了一下其他风格的音乐的情绪分析:

民谣的情绪很丰富,而摇滚的情绪则大多是负面的,人们说,没有愤怒就没有摇滚,这话至少在歌词的情绪上是正确的。

民谣歌手最喜欢什么季节?通过对歌词的分析,这个问题也可以解决:

其中,春天出现了81次,冬天出现了74次,夏天和秋天各出现了70和47次。由此可见,最受欢迎的是春天和冬天,最不受欢迎的是秋天。但我个人觉得秋天挺好的,秋高气爽,菜价便宜。

同样的,我也分析了歌手们最喜欢的城市,结果如下:

可以看得出,北方城市完全战胜了南方城市,成了在歌词中被唱的最多的地方,特别是北京,一共出现了81次。说到一线城市,人们会说北上广深,但是在民谣的世界里,北京绝对是不可撼动的存在。南方城市只有成都勉强露了几个照面。作为一个成都人,我对此还挺高兴的。

难以理解的是,虽然北方城市大获全胜,但是歌手们却更多的念叨着「南方」而不是「北方」,「南方」比「北方」多出现了大约5.7%

另一个我感兴趣的问题是,民谣歌手们是在向前看还是向后看,是往未来寄托希望,还是缅怀过去?

看得出,民谣歌手是在往前看的,至少是活在当下的,「明天」这个词在歌词中出现的次数最多,接着是「今天」和「昨天」,而「前天」和「后天」则几乎可以忽略不计,这也是可以理解的,比如说「我拿青春赌明天」,这听上去很美好,如果要说「我拿青春赌后天」乃至于「我拿青春赌下个月5号」,就听上去就像一个赌徒发疯了。

在我的统计中,出现最多的几个意象是:再见,姑娘,夜空,孤独,快乐。

如果把民谣拟人化,那应该是一个喜欢南方的北京小伙子,觉得世界很操蛋,但骂归骂,到底是对生活有希望的,憧憬着明天,在春天感到快乐,在冬天感到孤独,没有女朋友,但有几个纠缠不清的前女友,经常和她们见面,见面的地方可能是成都,昆明,南京,上海,武汉。。。。。

本次分析使用的是腾讯文智和哈工大社会计算与信息检索研究中心的自然语言处理模块,同时也在测试的时候使用了百度AI的自然语言处理,效果不好。

相关文章

网友评论

  • 浅言物:最后一句没说清楚哎
  • cf6698203e28:牛逼啊!搞笑〜( ̄▽ ̄〜)
  • e5dbc7576dfd:具体分析方法有兴趣再写一篇吗?膜拜大神,学习~
  • 2134e2d537fe:不是尧十三嘛
  • Garfield_Liang:我想知道是怎么分析出里面的关键词的。。。
  • 5e150e87dbc4:挺有意思的,不过你这个程序应该加一个去重功能。
    李志南方城市一首歌就唱了几十遍心慌。。
  • 986cfd55eb5f:表白楼主😇😇😇
  • 罗罗攀:作者的歌词在哪爬取的?
  • 罗罗攀:多多来投稿哦
  • 雨师Heber:歌曲的好听与否,受欢迎与否,个人认为歌词只是很小的一个影响因素,而音乐的好坏,比如曲风、曲调、节奏等,也许对人的影响更大。:wink:
  • 白点点:辛苦了,做的很详细,我也很喜欢民谣,期待新作。
  • 回希:大数据时代来临啊,虽然这般通过歌词硬性分析有些欠缺,但是还是觉得挺有意思的。:smile:
  • 19087ff43ebf:不得不说,很有趣的分析
  • 小米f085:好有根据
  • 元宇宙100路:音乐总是在一个时代,代表了一个时代。尽管他们可能是这样,也可能是那样,但都是大给了我们安慰。
  • 24324f03683e:是尧十三不是夭十三好吗
    这会让人觉得看了你这篇文很难受
  • 夜尘音:这才是真正的数据分析啊…
  • 6556b7c5fca4:有数据,有现象,赞
  • 皮大侠:厉害👍👍
  • 爱吃柚子的蚊子:民谣歌词其实都有套路… 都有个地名 有个姑娘 有着孤独或者狂欢 有怀念 等等
  • 芳肆:布衣的秋天。
  • 海天渔歌:采取数理统计分析,歌词频次程度内涵的表达,是文理融合的创新。
  • 9ef21ea85091:效果确实不好。
  • alankant:这太牛逼了!
  • 阿瑃:表示喜欢民谣
  • 睡前童话大王:民谣俺只喜欢赵雷的《成都》~😂😂😂😂😂😂
  • 米斯特程:尧十三。。。博主好棒,已关注微博
  • 38ffac551c9e:厉害了,爬虫!
  • 云空尘:亮点在于最后一句,效果不好哈哈哈哈
  • a7f5891cb234:不赖,开拓视野,作者再写个分析其他的出来看看!估计你也是理科男,这么科学的一本正经的去对待民谣,不多见
  • 尤小光:没毛病~~我觉得你摸到了民谣的龙骨
  • maofay:哈哈,太逗了
  • 空城墨城:厉害了
  • 520felicity:分析得太幽默了
  • 闻勤行:厉害,爬虫啊又勾起了我学它的兴趣
  • 朽墙:看来民谣也都是套路
  • 61d9228c3140:一个喜欢南方的北方小伙子:+1:
  • d2a6a26c9412:厉害厉害,第一次见这么分析民谣的,很有意思!
  • 暮晞之静:作者好酷哈哈,如此细心和耐心的去总结,读来很有意思。本人也喜爱民谣,细想貌似确是如此。
  • 一宛西柚:很新奇的视角,厉害:+1:
  • 小兄弟:好闻 用大数据全面的分析了民谣的歌词 作者能不能分享一下您制作的软件啊 我也想体验一下
  • fd59664d6e77:虽然喜欢民谣,可是难抵千篇一律。
  • 窗外阳光:这个分析太屌了~
  • 小女子showshow:腻害👍👍👍
  • 此狐修仙中:哈哈哈哈
  • 7e1741719cd9:作者这么一分析。民谣并不是听起来的那么悲伤呀。最后那段描述简直棒棒哒。一个喜欢南方的北京小伙子。哈哈哈
  • 不见清寒:好厉害……
  • 向暖姑娘:很用心
  • coral33啊:厉害,作者有心
  • 卖猪肉的姚叔:哈哈哈,图标做的再精致点就好了,好逗
  • 3ef0058d5b5a:不得不服呀
  • 106341fce0e5:厉害了!用大数据解剖民谣,用理性数据解读感性词藻
  • 86fa9d6f6b4e:大写的服字👍👍👍
  • 远远歌哥:大数据拯救世界!有没有发现歌词互相抄袭的?
    马拉松Mara: @程远歌 不能算抄袭。"你我他"这样的词汇,可以算抄袭?
  • 初代皮神:就分析这事来说要向你学习。
  • 3322326434d9:目测此文会火!!!
  • 9ad82f33cbaa:作者好酷,好佩服你是怎么做的软件去分析,看见那个季节、城市、心情的分析,我真的是大大的服,楼主好可爱~
  • Eric_:6666666666
  • MC1229:嘤嘤嘤!

本文标题:我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么

本文链接:https://www.haomeiwen.com/subject/ljxmittx.html