知识社区运营数据分析案例

作者: 数据会说话 | 来源:发表于2018-01-31 13:53 被阅读160次

学习爬虫的时候，对公司知识社区的推荐文章列表，用户列表进行了简单爬取，数据分析的过程中发现一些有意思的点，跟大家分享下。

本篇文章主要分为三部分：

为什么做知识社区、这个社区是什么？
社区的发展情况的数据分析
结合数据分析给出的一些社区运营建设

why- 为什么做知识社区？

社区是公司老板为了推进TD构建学习型、开放型、分享型组织在2017年初做的一次尝试，从目前来看文章累积10w篇，推荐文章2400多篇，累积用户600多位，很好的带动了公司的学习和分享氛围。

这些文章大家肯定都不陌生：

《奔跑吧，程序员！》，《阿里曾鸣教授到访交流纪要：商业模式、企业管理、数据和发展探讨》，《美国东岸大数据交流访问总结》，《XX项目纪实-客户需要外脑做什么？》

what- 知识社区是什么？

公司社区以类知乎的问答社区为模板，但是由于目前的封闭性（公司内部使用），用户人群数量和多样性无法保证很好的问答氛围，定位还是以知识、资讯的阅读和推荐为主。

how about- 社区发展的怎么样？

前面已经提到社区的文章数、推荐书、用户数，下面通过一些更具体的数据给大家展示下系统的运行情况（非官方）

社区发展的时间线分析

这里选取了社区最优质的内容-推荐文章的数量来反馈社区的整体发展情况

[图片上传中...(1.png-f21962-1517377751310-0)]

第一阶段：201703-201707 启动阶段，以信息聚合和用户习惯培养为主

这个阶段社区冷启动，以Admin爬取网络热点信息为主，同时积极培育用户的使用习惯，主要的资讯来源有：

- 产品经理社区：人人都是产品经理、产品中国、产品壹佰、腾讯ISUX
- 科技资讯媒体：雷锋网、36kr、未央网、互联网一些事
- 人工智能和机器学习社区：机器之心（对社区内容的认可已经体现到公司的投资行为中）、KDnuggets
- 数据相关社区或者自媒体： 数据猿、数盟社区

第二阶段：201708-201712 迅速增长阶段，文章推荐量、用户活跃迅速发展，一些知识大V涌现

这个阶段文章的推荐量、用户的使用习惯都已经形成，一些积极分享的大V涌现，成为某个专题的KOL

- 机器学习：xxxx 
- 金融科技：xxxx 
- 产品：xxx    
- 新零售： xxxx 
- 技术：xxxx

当前情况：活跃有所下降，17年底18开年大家在社区上投入精力减少，结合具体的数据分析后面会提出一些运营的建议

以上是平台总体运营情况，下面通过三个案例进行下场景化分析

KOL影响力分析
用户聚类分析
其他可能分析方向

社区KOL分析

知识分享社区中KOL对平台的发展非常重要，如何用数据刻画，通过爬虫我从下面两个维度进行了大V信息的抓取

大V文章的影响力数据，包括
- 推荐列表文章数
- 文章的浏览量
- 文章的平均浏览量
- 点赞数
- 平均点赞数
- 回复数
- 平均回复数
大V们的社区行为数据，包括
- 发布文章数
- 阅读文章数
- 点赞数（点赞他人文章）
- 推荐数（推荐他人文章）
- 威望

上面的数据哪些最能反应大V的论坛影响力呢？这里先进行了下关联度分析：

3.png

通过关联度的显著分析，我们是否可以这些假设：

社区威望，初始规则-基于点赞和被推荐进行计算（目前Furion的设置规则不详？），是否合理的反应了大V的社区影响力（目前Grade并没有太多匹配的强相关数据）
推荐和发布文章强相关，说明大家对内容的把握都比较高，认为可以推荐给大家给大家带来一些帮助
推荐和文章回复强相关，说明被推荐的文章曝光和响应更多
浏览和点赞强相关，说明浏览量大的文章质量都不错
浏览和回复强相关，说明浏览量大的文章引出的互动更多
点赞和回复强相关，可以作为文章质量的指标
阅读和推荐强相关，读文章多的小伙伴在给大家当知识过滤器

总体看，KOL更多还是发表优秀的文章，通过推荐触达更多的用户，由所有用户的点赞、浏览、回复形成影响力。

以上这里KOL的界定还是以经验、数据表现为主，后续在全体用户的分析中，我会尝试通过标注的方式，让机器告诉我们谁是KOL、谁会是潜力KOL

社区用户聚类分析

通过用户的行为数据进行相关的聚类分析，主要数据如下：

发布文章数
阅读文章数
回复文章数
点赞文章数
推荐文章数
社区威望
社区积分
被点赞数

样本数据如下：

[图片上传失败...(image-585b26-1517376880821)]

执行聚类算法之前的假设，用户分为：KOL高影响力人群、活跃人群、潜力KOL人群、不活跃人群，具体聚类的过程如下：

Round1 设置 k=4 聚类结果，发现有个聚簇只有一个样本，查询数据为admin（爬虫），清洗数据继续聚类

5.png

Roudn2 设置k=3，具体结果如下

6.png

聚类结果中大部分KOL被分入cluster_2，但是仍旧有不少KOL被列入cluster_1，而且聚簇效果一般。

需要进行数据清理两个办法：

数据量纲统一：大部分长尾数据存在的情况下统一量纲不是一个好选择；
离群点处理：这里要注意避免误伤真正的KOL；离群点处理使用数据过滤，维度上设置阈值，针对超出的数据直接丢弃
1. 阅读量大的极端用户：read>1000
2. 被赞同量大的离群点：agreed>1000 Leo同学是不可复制的
3. 无法明确含义的数据：grade列去掉

Round3 设置阈值后的聚类效果
- k=3对应群组： KOL（发表文章、回复文章、被点赞较多）、Follower（阅读、点赞较多）、Un-active（较不活跃）
- k=4对应群组：cluster_0 36位潜力KOL、cluster_1 106位积极参与者、cluster_2 9位KOL、cluster_3 430人这里区分还是不够清晰
  
  如何进一步尝试，切换聚类的算法？重设k值？
Round4 设置k=5，大概分群，这次分群有一定聚簇效果，但是可视化效果比较差
- cluster_2低活跃
- cluster_4 阅读和点赞较多
- cluster_1 活跃度更高，开始尝试主动pub
- cluster_0 KOL
- cluster_3 输出为主
经过N轮的整理，最后选择k=3
```
  结果的可视化效果（长尾分布可以使用log scale视图），通过调整得到最好的聚簇效果（弱相关特征维度上进行展现）
```
- x轴-活跃：read 通过浏览和点赞行为可以反映用户的活跃程度；
- y轴-发布：pub 通过发布文章反映用户的主动分享精神；
- 气泡-被赞同：agreed 文章被赞同一定程度反馈了内容的价值和作者的影响力

8.png

*   大神：cluster_0(9)  高发布、高认同、高活跃，绝对的KOL（xxxx等大神）
*   勤奋学习者：cluster_1(72)  高活跃、中认同、中发布，积极的学习者和跟随者应该也是在Furion收获最大的一群小伙伴 
*   刚来的或者太忙的：cluster_2(500)  可以简单分为两类， 低发布低活跃低认同的小伙伴（可能新同事）；中高发布和认同、低活跃的输出型人才（估计都是项目上的大忙人，阶段性的开坛作法，xxxxx等同学）

其他分析，未来引入更多的数据，可能在下面场景进行一些深入的分析

KOL预测（这是否一个好问题？人的行为是否可以预测？需要引入时序数据？ KOL预测的意义和价值是什么？）

KOL预测分析基于前面用户聚类、KOL判断的结果进行数据标注，分组后的数据通过逻辑回归方式进行KOL预测，将无监督学习的成果应用到监督分类模型中。
社区活跃预测分析（需要引入时序数据？）

how- 社区后续的运营建议，主要从用户、内容、产品三个角度分析：

用户运营：拉新、促活、留存，对用户的价值和激励
内容运营：内容的质量、内容的推荐关联度
产品运营：哪些产品功能可能引爆用户活跃和增长

用户运营

 用户运营的关键在于促活（社区全员参与），增加对用户/员工的价值：

激励：通过参与获得积分兑换TD周边，这个要继续做，而且要增加周边的丰富度
价值：推荐的文章能让大家真正学到东西，目前的推荐操作可能还是太简单粗暴，是否可以引入更好的推荐机制

内容运营

优秀资源的聚合，通过爬虫抓取更多优秀资源
KOL优质内容的贡献，周期爆款文章是否有额外的积分奖励

产品运营

搜索功能的优化，现在联结时代，互联网就是我们的存储器，没有好的索引肯定不行
推荐，公司2018年在模型和算法上更进一步，这里可以做个试验田

总体上下面几个建议：

技术上，增强搜索、推荐功能
运营上，建议由KOL、高活跃用户成立虚拟委员会，每周（选出轮值主席）进行优秀资源更新、推荐文章标注、优秀文章评选等
内容上，高价值文章发掘、触达、激励
资源上，积分商城持续的运营加力，给大家足够的激励

网友评论

本文标题：知识社区运营数据分析案例

本文链接：https://www.haomeiwen.com/subject/ydikzxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！