美文网首页
知识社区运营数据分析案例

知识社区运营数据分析案例

作者: 数据会说话 | 来源:发表于2018-01-31 13:53 被阅读160次

    学习爬虫的时候,对公司知识社区的推荐文章列表,用户列表进行了简单爬取,数据分析的过程中发现一些有意思的点,跟大家分享下。

    本篇文章主要分为三部分:

    • 为什么做知识社区、这个社区是什么?
    • 社区的发展情况的数据分析
    • 结合数据分析给出的一些社区运营建设

    why- 为什么做知识社区?

    社区是公司老板为了推进TD构建学习型、开放型、分享型组织在2017年初做的一次尝试,从目前来看文章累积10w篇,推荐文章2400多篇,累积用户600多位,很好的带动了公司的学习和分享氛围。

    这些文章大家肯定都不陌生:

    《奔跑吧,程序员!》,《阿里曾鸣教授 到访交流纪要:商业模式、企业管理、数据和发展探讨》,《美国东岸大数据交流访问总结》,《XX项目纪实-客户需要外脑做什么?》

    what- 知识社区是什么?

    公司社区以类知乎的问答社区为模板,但是由于目前的封闭性(公司内部使用),用户人群数量和多样性无法保证很好的问答氛围,定位还是以知识、资讯的阅读和推荐为主。

    how about- 社区发展的怎么样?

    前面已经提到社区的文章数、推荐书、用户数,下面通过一些更具体的数据给大家展示下系统的运行情况(非官方)

    社区发展的时间线分析

    这里选取了社区最优质的内容-推荐文章的数量来反馈社区的整体发展情况

    [图片上传中...(1.png-f21962-1517377751310-0)]

    • 第一阶段:201703-201707 启动阶段,以信息聚合和用户习惯培养为主

    这个阶段社区冷启动,以Admin爬取网络热点信息为主,同时积极培育用户的使用习惯,主要的资讯来源有:

    - 产品经理社区:人人都是产品经理、产品中国、产品壹佰、腾讯ISUX
    - 科技资讯媒体:雷锋网、36kr、未央网、互联网一些事
    - 人工智能和机器学习社区:机器之心(对社区内容的认可已经体现到公司的投资行为中)、KDnuggets
    - 数据相关社区或者自媒体: 数据猿、数盟社区
    
    • 第二阶段:201708-201712 迅速增长阶段,文章推荐量、用户活跃迅速发展,一些知识大V涌现

    这个阶段文章的推荐量、用户的使用习惯都已经形成,一些积极分享的大V涌现,成为某个专题的KOL

    - 机器学习:xxxx 
    - 金融科技:xxxx 
    - 产品:xxx    
    - 新零售: xxxx 
    - 技术:xxxx
    
    • 当前情况:活跃有所下降,17年底18开年大家在社区上投入精力减少,结合具体的数据分析后面会提出一些运营的建议

    以上是平台总体运营情况,下面通过三个案例进行下场景化分析

    • KOL影响力分析
    • 用户聚类分析
    • 其他可能分析方向

    社区KOL分析

    知识分享社区中KOL对平台的发展非常重要,如何用数据刻画,通过爬虫我从下面两个维度进行了大V信息的抓取

    • 大V文章的影响力数据,包括
      • 推荐列表文章数
      • 文章的浏览量
      • 文章的平均浏览量
      • 点赞数
      • 平均点赞数
      • 回复数
      • 平均回复数
    • 大V们的社区行为数据,包括
      • 发布文章数
      • 阅读文章数
      • 点赞数(点赞他人文章)
      • 推荐数(推荐他人文章)
      • 威望

    上面的数据哪些最能反应大V的论坛影响力呢? 这里先进行了下关联度分析:

    3.png

    通过关联度的显著分析,我们是否可以这些假设:

    • 社区威望,初始规则-基于点赞和被推荐进行计算(目前Furion的设置规则不详?),是否合理的反应了大V的社区影响力(目前Grade并没有太多匹配的强相关数据)

    • 推荐和发布文章强相关,说明大家对内容的把握都比较高,认为可以推荐给大家给大家带来一些帮助

    • 推荐和文章回复强相关,说明被推荐的文章曝光和响应更多

    • 浏览和点赞强相关,说明浏览量大的文章质量都不错

    • 浏览和回复强相关,说明浏览量大的文章引出的互动更多

    • 点赞和回复强相关,可以作为文章质量的指标

    • 阅读和推荐强相关,读文章多的小伙伴在给大家当知识过滤器

    总体看,KOL更多还是发表优秀的文章,通过推荐触达更多的用户,由所有用户的点赞、浏览、回复形成影响力。

    以上这里KOL的界定还是以经验、数据表现为主,后续在全体用户的分析中,我会尝试通过标注的方式,让机器告诉我们谁是KOL、谁会是潜力KOL

    社区用户聚类分析

    通过用户的行为数据进行相关的聚类分析,主要数据如下:

    • 发布文章数
    • 阅读文章数
    • 回复文章数
    • 点赞文章数
    • 推荐文章数
    • 社区威望
    • 社区积分
    • 被点赞数

    样本数据如下:

    [图片上传失败...(image-585b26-1517376880821)]

    执行聚类算法之前的假设,用户分为:KOL高影响力人群、活跃人群、潜力KOL人群、不活跃人群, 具体聚类的过程如下:

    • Round1 设置 k=4 聚类结果,发现有个聚簇只有一个样本,查询数据为admin(爬虫),清洗数据继续聚类
    5.png
    • Roudn2 设置k=3,具体结果如下
    6.png

    聚类结果中大部分KOL被分入cluster_2,但是仍旧有不少KOL被列入cluster_1,而且聚簇效果一般。

    需要进行数据清理两个办法:

    • 数据量纲统一:大部分长尾数据存在的情况下 统一量纲不是一个好选择;

    • 离群点处理:这里要注意避免误伤真正的KOL;离群点处理使用数据过滤,维度上设置阈值,针对超出的数据直接丢弃

      1. 阅读量大的极端用户:read>1000
      2. 被赞同量大的离群点:agreed>1000 Leo同学是不可复制的
      3. 无法明确含义的数据:grade列去掉
    • Round3 设置阈值后的聚类效果

      • k=3对应群组: KOL(发表文章、回复文章、被点赞较多)、Follower(阅读、点赞较多)、Un-active(较不活跃)

      • k=4对应群组:cluster_0 36位潜力KOL、cluster_1 106位积极参与者、cluster_2 9位KOL、cluster_3 430人这里区分还是不够清晰

        如何进一步尝试,切换聚类的算法?重设k值?

    • Round4 设置k=5,大概分群,这次分群有一定聚簇效果,但是可视化效果比较差

      • cluster_2低活跃
      • cluster_4 阅读和点赞较多
      • cluster_1 活跃度更高,开始尝试主动pub
      • cluster_0 KOL
      • cluster_3 输出为主
    • 经过N轮的整理,最后选择k=3

        结果的可视化效果(长尾分布可以使用log scale视图),通过调整得到最好的聚簇效果(弱相关特征维度上进行展现)
      
      • x轴-活跃:read 通过浏览和点赞行为可以反映用户的活跃程度;
      • y轴-发布:pub 通过发布文章反映用户的主动分享精神;
      • 气泡-被赞同:agreed 文章被赞同一定程度反馈了内容的价值和作者的影响力
    8.png
    *   大神:cluster_0(9)  高发布、高认同、高活跃,绝对的KOL(xxxx等大神)
    *   勤奋学习者:cluster_1(72)  高活跃、中认同、中发布,积极的学习者和跟随者应该也是在Furion收获最大的一群小伙伴 
    *   刚来的或者太忙的:cluster_2(500)  可以简单分为两类, 低发布低活跃低认同的小伙伴(可能新同事);中高发布和认同、低活跃的输出型人才(估计都是项目上的大忙人,阶段性的开坛作法,xxxxx等同学)
    

    其他分析,未来引入更多的数据,可能在下面场景进行一些深入的分析

    • KOL预测(这是否一个好问题? 人的行为是否可以预测? 需要引入时序数据? KOL预测的意义和价值是什么?)

      KOL预测分析基于前面用户聚类、KOL判断的结果进行数据标注,分组后的数据通过逻辑回归方式进行KOL预测,将无监督学习的成果应用到监督分类模型中。

    • 社区活跃预测分析(需要引入时序数据?)

    how- 社区后续的运营建议,主要从用户、内容、产品三个角度分析:

    • 用户运营:拉新、促活、留存,对用户的价值和激励
    • 内容运营:内容的质量、内容的推荐关联度
    • 产品运营:哪些产品功能可能引爆用户活跃和增长

    用户运营

     用户运营的关键在于促活(社区全员参与),增加对用户/员工的价值:
    
    • 激励:通过参与获得积分兑换TD周边,这个要继续做,而且要增加周边的丰富度
    • 价值:推荐的文章能让大家真正学到东西,目前的推荐操作可能还是太简单粗暴,是否可以引入更好的推荐机制

    内容运营

    • 优秀资源的聚合,通过爬虫抓取更多优秀资源
    • KOL优质内容的贡献,周期爆款文章是否有额外的积分奖励

    产品运营

    • 搜索功能的优化,现在联结时代,互联网就是我们的存储器,没有好的索引肯定不行
    • 推荐,公司2018年在模型和算法上更进一步,这里可以做个试验田

    总体上下面几个建议:

    1. 技术上,增强搜索、推荐功能
    2. 运营上,建议由KOL、高活跃用户成立虚拟委员会,每周(选出轮值主席)进行优秀资源更新、推荐文章标注、优秀文章评选等
    3. 内容上,高价值文章发掘、触达、激励
    4. 资源上,积分商城持续的运营加力,给大家足够的激励

    相关文章

      网友评论

          本文标题:知识社区运营数据分析案例

          本文链接:https://www.haomeiwen.com/subject/ydikzxtx.html