美文网首页音乐是你,另一个自我复活的地方
不同歌手的粉丝们都在什么时候听歌?

不同歌手的粉丝们都在什么时候听歌?

作者: TheMarcMa | 来源:发表于2015-11-02 14:04 被阅读126次

    I.采集部分(不感兴趣可以直接跳到数据部分)

    工具:python+selenium包+excel
    素材来源:网易云音乐歌曲的评论区-评论的时间
    主要用的是利用selenium的自动化测试工具抓取,因为对爬虫也是正在学习,对于怎么抓内嵌的frame里的内容唯一想到的就是用selenium(对此有更高效的方法欢迎指点)。
    程序非常简单:

    from selenium import web driver
    #歌手主页的url地址
    def wangyi(url=u'http://music.163.com/#/artist?id=37995'):
        py_web=webdriver.Firefox()    
        py_web.get(url)    
        #切换到包涵内容的frame
        py_web.switch_to_frame('g_iframe')    
        songlinks=[]    
        for obj_a in py_web.find_elements_by_xpath("//tr"):        
           songlink = obj_a.find_element_by_tag_name('a').get_attribute('href') 
           songlinks.append(songlink)
    #由此得到该歌手主页下的最热50首歌,我们将songlinks内的歌曲下的评论时间进行抓取
        comments_time = {}
        #开始每首歌评论抓取
        for song in song links:
          py_web.get(song)            
          py_web.switch_to_frame('g_iframe') 
          #第一页的评论时间抓取       
          for comment in py_web.find_elements_by_xpath("//div[@class='time s-fc4']"): 
             #每个comment的text是该条评论的时间  
             comment_clock=comment.text   
             #我们只需要那些带‘:’的评论,即能确定到小时的         
             if u':' in comment_clock:  
                 #提取出评论的小时时间              
                 hour = comment_clock.split(u':')[0][-2:]                
                 comments_time.setdefault(hour,0)                
                 comments_time[hour]+=1        
             #为了减少抓取时候评论集中带来的误差,同时增加样本,我们多抓25页的评论
             for i in range(25):            
                 if len(py_web.find_elements_by_xpath("//a[@href='#']"))>3:  
                    #我们直接找到'下一页'的按钮,click后对评论翻页再抓,直到结束-出现'js=disable'或抓完25+1页
                    next = py_web.find_elements_by_xpath("//a[@href='#']")[-3]                
                    if u'js-disabled' not in next.get_attribute("class"): 
                          next.click()                    
                          time.sleep(0.5) 
                          #下面是与抓第一页评论相同的,应该可以简化代码
                          for comment in py_web.find_elements_by_xpath("//div[@class='time s-fc4']"):     
                              comment_clock=comment.text                        
                              if u':' in comment_clock:                            
                                  hour = comment_clock.split(u':')[0][-2:]     
                                  comments_time.setdefault(hour,0)      
                                  comments_time[hour]+=1
        return comments_time
    

    以上就是抓取一个歌手下评论时间的代码了,还是欢迎建议。

    II.数据部分

    对歌手A有comment_number=[a0,a1,a2......,a23]。每个歌手歌曲的评论数量当然不同,为了方便比较,对其求和sum_A,然后转换为概率comment_p=[a0/sum_A,a1/sum_A,......,a23/sum_A]。
    好了,根据个人选择,我抓取了几个歌手得到了以下的表格(先声明,我并不是所有人的歌迷啊,只是好奇):


    各歌手时间p分布.jpg

    拿来直接画图,看看总体分布:


    各歌手下评论时间走势.jpg
    线比较混乱,不过可以看到的是总体上大家作息很是类似的,其中21点后到23点间评论量增加趋势的歌手是:陈奕迅、李志、万青、Nirvana、枪花,而周杰伦、TF-Boy、张杰的歌迷21点后都开始放缓了。同样在0点看活跃度,周杰伦、比伯,张杰,TF-Boy与其他几位分开还是比较明显的。其中,我自己比较好奇的是Kendrick Lamar(说唱)的活跃度在21点后就不高了,其一可能是因为他的评论样本与其他几位比非常少(个人比较喜欢所以硬加的),其二可能真的大晚上听的人少。

    光这么看还不够,我们计算一下各个歌手comment_p之间的差异度吧。A,B歌手之间的对比,先用comment_p_A-comment_p_B得到diff_comment_p,再对diff_comment_p做均方误差。得到下列结果:


    各歌手评论活跃时间之间差异度.jpg

    这个结果还是比较乱,我们做单人比较,对Guns&Roses来说,与其差异度最小的是涅槃Nirvana(0.00530),差异度最大的是TF-Boy(0.01),将这三者comment_p做个雷达图比较,如下:

    Guns&Roses VS Nirvana VS TF-Boy.jpg

    嗯,不管是大朋友还是小朋友,23点以后就应该睡觉了。

    再看看我比较喜欢的逼哥吧,与李志差异度较小的是陈奕迅(0.00256,全场最小),万青(0.00409),差异比较大的拿杰伦(0.010)跟TF-Boy(0.01191)。比较如下:

    李志 VS 万青 VS TF-Boy VS 周杰伦 VS 陈奕迅.jpg

    可以看出最明显的是峰值差异,李志、万青、陈奕迅峰值都出现在24点,而TF-Boy、周杰伦峰值出现在22点。

    此外我的抓取是在大早上做的,所以可能靠前的评论都是昨天深夜的,那么粉丝多的,评论增加频繁的比如陈奕迅,周杰伦等可能在23,24点会偏大,这点可以通过抓取更多评论抵消一点偏差。所以需要更有效率的抓法,用selenium的还是稍慢。

    有时间可以拿不同大类(流行,摇滚,民谣等等)下的一些歌手作为共同样本,来做曲风不同听歌时间之间差异比较。

    相关文章

      网友评论

        本文标题:不同歌手的粉丝们都在什么时候听歌?

        本文链接:https://www.haomeiwen.com/subject/xvlqhttx.html