I.采集部分(不感兴趣可以直接跳到数据部分)
工具:python+selenium包+excel
素材来源:网易云音乐歌曲的评论区-评论的时间
主要用的是利用selenium的自动化测试工具抓取,因为对爬虫也是正在学习,对于怎么抓内嵌的frame里的内容唯一想到的就是用selenium(对此有更高效的方法欢迎指点)。
程序非常简单:
from selenium import web driver
#歌手主页的url地址
def wangyi(url=u'http://music.163.com/#/artist?id=37995'):
py_web=webdriver.Firefox()
py_web.get(url)
#切换到包涵内容的frame
py_web.switch_to_frame('g_iframe')
songlinks=[]
for obj_a in py_web.find_elements_by_xpath("//tr"):
songlink = obj_a.find_element_by_tag_name('a').get_attribute('href')
songlinks.append(songlink)
#由此得到该歌手主页下的最热50首歌,我们将songlinks内的歌曲下的评论时间进行抓取
comments_time = {}
#开始每首歌评论抓取
for song in song links:
py_web.get(song)
py_web.switch_to_frame('g_iframe')
#第一页的评论时间抓取
for comment in py_web.find_elements_by_xpath("//div[@class='time s-fc4']"):
#每个comment的text是该条评论的时间
comment_clock=comment.text
#我们只需要那些带‘:’的评论,即能确定到小时的
if u':' in comment_clock:
#提取出评论的小时时间
hour = comment_clock.split(u':')[0][-2:]
comments_time.setdefault(hour,0)
comments_time[hour]+=1
#为了减少抓取时候评论集中带来的误差,同时增加样本,我们多抓25页的评论
for i in range(25):
if len(py_web.find_elements_by_xpath("//a[@href='#']"))>3:
#我们直接找到'下一页'的按钮,click后对评论翻页再抓,直到结束-出现'js=disable'或抓完25+1页
next = py_web.find_elements_by_xpath("//a[@href='#']")[-3]
if u'js-disabled' not in next.get_attribute("class"):
next.click()
time.sleep(0.5)
#下面是与抓第一页评论相同的,应该可以简化代码
for comment in py_web.find_elements_by_xpath("//div[@class='time s-fc4']"):
comment_clock=comment.text
if u':' in comment_clock:
hour = comment_clock.split(u':')[0][-2:]
comments_time.setdefault(hour,0)
comments_time[hour]+=1
return comments_time
以上就是抓取一个歌手下评论时间的代码了,还是欢迎建议。
II.数据部分
对歌手A有comment_number=[a0,a1,a2......,a23]。每个歌手歌曲的评论数量当然不同,为了方便比较,对其求和sum_A,然后转换为概率comment_p=[a0/sum_A,a1/sum_A,......,a23/sum_A]。
好了,根据个人选择,我抓取了几个歌手得到了以下的表格(先声明,我并不是所有人的歌迷啊,只是好奇):
各歌手时间p分布.jpg
拿来直接画图,看看总体分布:
各歌手下评论时间走势.jpg
线比较混乱,不过可以看到的是总体上大家作息很是类似的,其中21点后到23点间评论量增加趋势的歌手是:陈奕迅、李志、万青、Nirvana、枪花,而周杰伦、TF-Boy、张杰的歌迷21点后都开始放缓了。同样在0点看活跃度,周杰伦、比伯,张杰,TF-Boy与其他几位分开还是比较明显的。其中,我自己比较好奇的是Kendrick Lamar(说唱)的活跃度在21点后就不高了,其一可能是因为他的评论样本与其他几位比非常少(个人比较喜欢所以硬加的),其二可能真的大晚上听的人少。
光这么看还不够,我们计算一下各个歌手comment_p之间的差异度吧。A,B歌手之间的对比,先用comment_p_A-comment_p_B得到diff_comment_p,再对diff_comment_p做均方误差。得到下列结果:
各歌手评论活跃时间之间差异度.jpg
这个结果还是比较乱,我们做单人比较,对Guns&Roses来说,与其差异度最小的是涅槃Nirvana(0.00530),差异度最大的是TF-Boy(0.01),将这三者comment_p做个雷达图比较,如下:
Guns&Roses VS Nirvana VS TF-Boy.jpg嗯,不管是大朋友还是小朋友,23点以后就应该睡觉了。
再看看我比较喜欢的逼哥吧,与李志差异度较小的是陈奕迅(0.00256,全场最小),万青(0.00409),差异比较大的拿杰伦(0.010)跟TF-Boy(0.01191)。比较如下:
李志 VS 万青 VS TF-Boy VS 周杰伦 VS 陈奕迅.jpg可以看出最明显的是峰值差异,李志、万青、陈奕迅峰值都出现在24点,而TF-Boy、周杰伦峰值出现在22点。
此外我的抓取是在大早上做的,所以可能靠前的评论都是昨天深夜的,那么粉丝多的,评论增加频繁的比如陈奕迅,周杰伦等可能在23,24点会偏大,这点可以通过抓取更多评论抵消一点偏差。所以需要更有效率的抓法,用selenium的还是稍慢。
有时间可以拿不同大类(流行,摇滚,民谣等等)下的一些歌手作为共同样本,来做曲风不同听歌时间之间差异比较。
网友评论