美文网首页数据告诉你答案
python数据分析:碰到喜欢的人该怎么办?(下)

python数据分析:碰到喜欢的人该怎么办?(下)

作者: 小刘的老刘 | 来源:发表于2019-08-03 15:28 被阅读52次

    人生苦短,我用Python

    自从相思河畔见了你,就象那春风吹进心窝里,......(继续暴露年龄)

    咳咳,楼主跑题了,上回把up主爬(qin)了个遍,这回要认认真真的来分析分析up主了。

    上一篇文章中,已经将爬好的数据存入了mongo,这里我们直接调用就好了。(当然,LZ还连续爬了几天,可以简单的看一下数据变化的趋势,这里主要是静态的分析为主。)

    数据清洗的部分这里略过了,主要都是数据类型的转换。

    先来看看总览,以年度为单位看看各年度的播放量情况。

    1.年度数据总览。
    import pymongo
    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    print('导入成功!')
    

    导入模块

    myclient = pymongo.MongoClient("mongodb://localhost:27017")
    db = myclient['看电影了没']
    data0725 = db['视频信息_dif'+'2019-07-25']#以7月25的数据为基础做研究
    datalist0725 = list(data0725.find())
    datadf0725 = pd.DataFrame(datalist0725)
    df0725 = datadf0725.copy()#处理数据是尽量不要用原始数据,在副本上操作
    total = df0725[['投币数_x', '弹幕数_x', '收藏_x', '评论_x', '分享_x','播放量_x','播放量_dif','上线年份']].groupby('上线年份').sum()
    count = df0725[['电影名称','上线年份']].groupby('上线年份').count()
    total = total.join(count)
    total.columns = ['投币数', '弹幕数', '收藏', '评论', '分享','播放量','播放量_dif','视频数量']
    

    这里分别将各指标计算一个平均值,看看各年度的平均情况。
    这样分析的理由是:由于19年的视频数据目前只采集到7月份的,按照up主2天更新一次视频的频率,视频数量到年底应该与18年持平,以视频数量计算均值可以更好的做对比分析。

    def per(df,cols,p):
        for col in cols:
            df[col +'_per'] = df[col] / df[p]
        return df
    
    cols = ['投币数', '弹幕数', '收藏', '评论', '分享','播放量','播放量_dif']
    p = '视频数量'
    total = per(total,cols,p)
    #print(total)
    

    注:由于LZ的数据处理后是比对了今日和昨日的数据所以原始数据的列名存在_x,_y,_dif,分别代表今日、昨日、两日对比的数据

    各项指标的均值
    fig,axe = plt.subplots(1,2,figsize = (12,6))
    total[['投币数','弹幕数','收藏','评论','分享']].plot(kind = 'bar',ax = axe[1],stacked = True , title = '年度其他情况',rot = 0)
    total['播放量'].plot(kind = 'bar',ax = axe[0],title = '年度播放量',rot = 0)
    

    从数据上看19年的数据已经基本和18年持平,总体上视频的平均每日每部视频的播放量19年是18年的5倍(这里以25日和24日的数据差作为日增长并不真实,所以这个结果只能作为大致的一个参考)

    图中也比较清楚的显示出19年目前数据是略优于18年的数据中间值。同时也和我们主观理解的数据相同,播放量带动其他的数据(投币数、收藏等)

    所以这里我们也来分析一下各项指标之间的相关度。通过散点矩阵先进行一个初步判断。

     pic0725_1 = df0725[['分享_x', '弹幕数_x', '投币数_x', '播放量_x', '收藏_x', '评论_x']]
     pd.scatter_matrix(pic0725_1,figsize=(20,12),
                         marker = 'o',
                         diagonal='kde',
                         alpha = 0.5,
                         range_padding=0.1)
    pic0725_2 = df0725[['分享_dif', '弹幕数_dif', '投币数_dif', '播放量_dif', '收藏_dif', '评论_dif']]
    pd.scatter_matrix(pic0725_2,figsize=(20,12),
                         marker = 'o',
                         diagonal='kde',
                         alpha = 0.5,
                         range_padding=0.1)
    
    pic_1 pic_2

    增长的播放量带来的其他数据的增长,看看是否存在较好的带动作用。

    print(pic0725_1.corr())
    #查看个列之间的相关性,Pearson相关系数。
    #相关系数 |r|  > 0.8 → 高度线性相关
    
    相关性
    说明播放量相对与其他指标(分享、投币等)的带动较为明显,但是对弹幕数的带动做不用不是特别大。 (LZ觉得可能的两个假设,A:内容槽点不多;B:内容引起的共鸣不多。不过这个要通过爬取弹幕数据来进一步分析。)

    看完了一个总体概况,再来看看分年度的数据。

    2.分年度数据分析

    先看看各年度各视频的播放量情况,看看是否存在异常值(热门视频)。

    df_2017 = df0725[df0725['上线年份'] == 2017]
    df_2018 = df0725[df0725['上线年份'] == 2018]
    df_2019 = df0725[df0725['上线年份'] == 2019]
    #各年度数据
    fig1,axe = plt.subplots(1,3,figsize = (10,6),sharey=True)
    df_2017['播放量_x'].plot.box(ax = axe[0],title = '2017年各视频播放量',whis = 3)
    df_2018['播放量_x'].plot.box(ax = axe[1],title = '2018年各视频播放量',whis = 3)
    df_2019['播放量_x'].plot.box(ax = axe[2],title = '2019年各视频播放量',whis = 3)
    
    各年度视频播放量-箱型图

    说明每个年度都存在热门视频。(图中的圆圈)

    def data_yc(df,col):
        q1 = df[col].quantile(q=0.25)
        q3 = df[col].quantile(q=0.75)
        iqr = q3 - q1
        tmax = q3 + 3*iqr
        tmin = q3 - 3*iqr
        return (tmax,tmin)
    #异常值(热门)分析
    hot_2017 = df_2017[df_2017['播放量_x'] > data_yc(df_2017,'播放量_x')[0]]
    hot_2018 = df_2018[df_2018['播放量_x'] > data_yc(df_2018,'播放量_x')[0]]
    hot_2019 = df_2019[df_2019['播放量_x'] > data_yc(df_2019,'播放量_x')[0]]
    hot = df0725[df0725['播放量_x'] > data_yc(df0725,'播放量_x')[0]]#这里也看看全年的热门视频做一个比较
    hotlst = []
    hotlst.extend(hot['电影名称'].values.tolist())
    hotlst.extend(hot_2017['电影名称'].values.tolist())
    hotlst.extend(hot_2018['电影名称'].values.tolist())
    hotlst.extend(hot_2019['电影名称'].values.tolist())
    hotlst = list(set(hotlst))
    #print(hotlst)
    hot_df = df0725[df0725['电影名称'].isin(hotlst)]
    del hot_df['_id']
    hot_df = hot_df[['上线年份','播放量_x', '电影名称']].sort_values('播放量_x',ascending = False).reset_index()
    del hot_df['index']
    

    这里可以知道热门视频是:《斯图尔特:倒带人生》,《最佳出价》,《代孕者》,《峰清道夫》, 《日本之耻》,《 我,花样女王》, 《印度的女儿》, 《我的小公主》, 《没有面孔的眼睛》,《 夜行动物》, 《希特勒的男孩》。(这些电影为内容的视频)
    另外,热门视频中2018年的视频,不论是从总体的播放量还是视频数量都占了主导地位。

    热门视频数据
    对热门视频的数据做一个可视化,这次用pyechart包
    from pyecharts.charts import Bar
    from pyecharts import options as opts
    from pyecharts.globals import ThemeType
    
    hot1,hot2,hot3 = hot_df.copy(),hot_df.copy(),hot_df.copy()
    hot1[hot1['上线年份'] != 2019] = 0
    hot2[hot2['上线年份'] != 2018] = 0
    hot3[hot3['上线年份'] != 2017] = 0
    xlim = hot_df['电影名称'].values.tolist()
    lst1 = hot1['播放量_x'].values.tolist()
    lst2 = hot2['播放量_x'].values.tolist()
    lst3 = hot3['播放量_x'].values.tolist()
    
    bar = (
        Bar(init_opts=opts.InitOpts(theme=ThemeType.LIGHT))
        .add_xaxis(xlim)
        .add_yaxis("2019", lst1, stack = '1',gap="15%")
        .add_yaxis("2018", lst2, stack = '1',gap="15%")
        .add_yaxis("2017", lst3, stack = '1',gap="15%")
        .set_series_opts(label_opts=opts.LabelOpts(is_show=False))
        .set_global_opts(title_opts=opts.TitleOpts(title="主标题", subtitle="副标题"))
        .set_global_opts(xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=15)))
    )
    bar.render()
    
    热门视频

    分析完了热门电影之后,接下来看看新增播放量的top20。同样用pyechart做可视化。

    df0725_1 = df0725[['上线年份','上线时间','电影名称','播放量_dif']].sort_values('播放量_dif',ascending = False)[:20].reset_index()
    #print(df0725_1)
    del df0725_1['index']
    df0725_1.columns = ['year','updatetime','name','view']
    view1 = df0725_1.copy()
    view1[view1['year'] == 2018] = 0
    view2 = df0725_1.copy()
    view2[view2['year'] == 2019] = 0
    xlim = df0725_1['name'].values.tolist()
    lst1 = view1['view'].values.tolist()
    lst2 = view2['view'].values.tolist()
    
    bar = (
        Bar(init_opts=opts.InitOpts(theme=ThemeType.LIGHT))
        .add_xaxis(xlim)
        .add_yaxis("2019", lst1, stack = '1',gap="15%")
        .add_yaxis("2018", lst2, stack = '1',gap="15%")
        .set_series_opts(label_opts=opts.LabelOpts(is_show=False))
        .set_global_opts(title_opts=opts.TitleOpts(title="主标题", subtitle="副标题"))
        .set_global_opts(xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=30)))
    )
    bar.render()
    
    新增播放量视频top20
    结合图表我们可以发现两个特征:
    1. 最新上线的视频带来的新增播放量是最多的,随着时间推移,近期更新的视频的新增播放量明显下降。
    2. 播放量最高的《印度女儿》还能够带来不小的新增播放量(跻身前三)。

    当然,为了印证上面的结论,LZ试着用7月29日的数据做了同样的分析。


    新增播放量视频top20(7月29日数据)
    当然这里还有第三个特征:
    3. 《弗兰西斯·哈》,《男人要自爱》,《波兰爱经》这三部视频都进入了top20。
    LZ认为是不可描述的原因这三部视频才能入选,感兴趣的小伙伴可以去B站搜来看看

    昨天UP又上新了,这里留一个彩蛋(看看这个图要怎么做出来)


    彩蛋
    总结一下

    作为一个内容分享平台B站上的品类还是非常多的,这里分析的UP主在电影这个门类中也是知名的,从这次的分析来看,制作高品质的内容非常重要,可以带来持续可观的流量。电影这个品内中,可能题材这个因素起到决定性的作用。

    最后还是把完整的代码附在这里

    PS:这次UP主的数据分析纬度还是较为单一,主要还是从播放量这一个单一的纬度,后面可以根据需要分析上面提到的弹幕信息以及评论信息,用户的反馈也是非常重要的一环,可以掌握用户的偏好,在选题材或者是选片上面做突破。

    相关文章

      网友评论

        本文标题:python数据分析:碰到喜欢的人该怎么办?(下)

        本文链接:https://www.haomeiwen.com/subject/dtezrctx.html