介绍
最近在网易云上找歌听,发现比较热门的歌曲一般评论数比较多,于是想着用爬虫去爬歌曲中的评论数,顺便找找好听的歌曲的同时分析热门歌曲的特点。
首先我根据所有歌单中的歌曲去爬取评论数,并保存评论数超过10000的歌曲,爬取结果按评论数排序,以下各种分析基于截止到2017年2月22日的爬取结果,如下图所示(排名前50首):
周杰伦同志不负众望的夺得了排行榜第一的位置!然后前五十很多来自最近一两年非常红的综艺大咖薛之谦和一些老牌歌手,从排名的情况可以简单看出,一般很红或者曾经很红的歌手的歌曲或者风格特殊的歌曲会更容易引发人评论。歌手热门歌曲数排名如下图所示:
看了一下排行榜前50,主要分为民谣歌手、热门歌手、情怀歌手、小众歌手,根据每个歌手热门歌曲分析特征(以中文歌曲为主、不考虑版权因素没有的歌曲):
首先我们来分析一下热门歌手的一些特点
提取评论数大于10000的歌曲并统计每一个歌手热门歌曲数,热门歌曲精确评论数。得到结果如下图所示(横轴为热门歌手的热门歌曲数,纵轴为歌手歌曲平均热度
由图中可以看到周杰伦热门歌曲数远远超过其他人,从抓取到专辑时间来看,第一张同名专辑Jay(2000-11-07)到最新的专辑周杰伦的床边故事(2016-06-24),跨过了21世纪的第一个十年,平均每张专辑有6首热门歌曲,而每张专辑一般10首歌左右,这意味着什么呢?也就是说周杰伦每发一张专辑,走过街边小巷你都能听到熟悉的声音。
陈奕迅热门歌曲主要是经典老歌,如下表所示:
排名上更多都是国语歌,但小编觉得医生的粤语歌才更能体现一种岁月的感觉。就好比大家都看过的那篇文章《这十年,有多少人从周杰伦到陈奕迅》所讲。
其他热门歌手大部分都是有很强的自我风格的歌手,如林俊杰、BIGBANG、Alan Walke等等,另外一部分有实力但比较小众,缺乏大舞台,音乐得不到发现,在经历过某些事件后得到爆发(如赵雷、邓紫棋)。如下图所示(来自赵雷的歌曲《理想》):
由上图可见,《理想》这首歌创作于2014年,当时每天评论数几十条左右,随着时间的推移,2017年赵雷参加了《歌手》演唱了这首歌,随着而来歌曲每天评论数飙增,最高时达到13401,之后趋于每天平均300左右评论。可见,一个好的平台对一个歌手来说是多么重要。
分析了热门歌手我们再来分析一下热门歌曲
为了搞清楚热门歌手歌曲特点,我爬取了所有热门歌曲歌词并进行分词、去重等处理,得到歌曲特征。以周杰伦为例:
周杰伦的歌曲中很大一部分以描述凄美的场景来表达逝去的爱情为主,歌词里出现比较多的如回。忆、离开、时间、眼泪、等待、沉默、思念、心碎、岁月、挽回、无奈等等
“回忆”出现的歌词:
“离开”出现的歌词:
词语出现权重直方图如下图所示:
结合以上分析,将热门歌手歌曲类型根据歌词内容按机器学习相关分类算法进行分类(悲伤、中性、积极),结果如下图所示(挑选了几个有代表性的歌手):
从结果可以看出周杰伦主要还是以情歌为主,辅以一些中国风的歌曲和说唱R&B,而薛之谦的歌大部分都是很伤感的歌曲,歌词如掩饰、难过、害怕、牺牲,而民谣歌手赵雷更多的是缓缓吟唱,歌词如依依不舍、温柔、轻吻,许嵩则大部分歌曲都是中国风,有批判现实的、但大部分还是以物述事、借景抒情。
最后分析热门歌曲评论
一般我们可以认为一首歌的评论能够反映听众对这首歌曲的直观感受,而网易云音乐上评论多且有趣。例如薛之谦的歌曲《演员》下面的精彩评论:
于是我爬取热门歌曲下的评论,分析歌曲带给人的感受。将评论类型分为怀旧、流行、共鸣。分别对应的时间节点为过去、现在、平稳时间点。抓取热门歌曲评论建立词向量空间模型进行聚类。得到结果如下图所示:
其中共鸣评论为表达对歌曲的直接感受的评论,怀旧评论更多是回忆听这首歌的场景和一些无关歌曲的评论,流行评论可能是明星带来的明星效应,或者电视节目的宣传等等的评论,这个结果说明一首热门的歌曲最重要的还是出彩的词曲唱,能让人产生共鸣,找到自己,一些宣传和明星效应还是辅助。
结论
分析了一下热门歌曲的一些特征后,我们可以尝试着去思考一下,在一个信息急速传播的时代,怎么创作一首歌才能更容易被大众所接受、喜欢。首先你要红啊,要能让大家听到你的作品;其次你的歌曲要用强烈的区分度和特色;再者你的歌词能让人产生共鸣;最后,如果什么xx歌手能演唱你的作品,那你就离出名不远啦。
更多债券及大数据金融风控资讯,请关注“itSaiD 它说”
网友评论