学习爬虫的时候,对公司知识社区的推荐文章列表,用户列表进行了简单爬取,数据分析的过程中发现一些有意思的点,跟大家分享下。
本篇文章主要分为三部分:
- 为什么做知识社区、这个社区是什么?
- 社区的发展情况的数据分析
- 结合数据分析给出的一些社区运营建设
why- 为什么做知识社区?
社区是公司老板为了推进TD构建学习型、开放型、分享型组织在2017年初做的一次尝试,从目前来看文章累积10w篇,推荐文章2400多篇,累积用户600多位,很好的带动了公司的学习和分享氛围。
这些文章大家肯定都不陌生:
《奔跑吧,程序员!》,《阿里曾鸣教授 到访交流纪要:商业模式、企业管理、数据和发展探讨》,《美国东岸大数据交流访问总结》,《XX项目纪实-客户需要外脑做什么?》
what- 知识社区是什么?
公司社区以类知乎的问答社区为模板,但是由于目前的封闭性(公司内部使用),用户人群数量和多样性无法保证很好的问答氛围,定位还是以知识、资讯的阅读和推荐为主。
how about- 社区发展的怎么样?
前面已经提到社区的文章数、推荐书、用户数,下面通过一些更具体的数据给大家展示下系统的运行情况(非官方)
社区发展的时间线分析
这里选取了社区最优质的内容-推荐文章的数量来反馈社区的整体发展情况
[图片上传中...(1.png-f21962-1517377751310-0)]
- 第一阶段:201703-201707 启动阶段,以信息聚合和用户习惯培养为主
这个阶段社区冷启动,以Admin爬取网络热点信息为主,同时积极培育用户的使用习惯,主要的资讯来源有:
- 产品经理社区:人人都是产品经理、产品中国、产品壹佰、腾讯ISUX
- 科技资讯媒体:雷锋网、36kr、未央网、互联网一些事
- 人工智能和机器学习社区:机器之心(对社区内容的认可已经体现到公司的投资行为中)、KDnuggets
- 数据相关社区或者自媒体: 数据猿、数盟社区
- 第二阶段:201708-201712 迅速增长阶段,文章推荐量、用户活跃迅速发展,一些知识大V涌现
这个阶段文章的推荐量、用户的使用习惯都已经形成,一些积极分享的大V涌现,成为某个专题的KOL
- 机器学习:xxxx
- 金融科技:xxxx
- 产品:xxx
- 新零售: xxxx
- 技术:xxxx
- 当前情况:活跃有所下降,17年底18开年大家在社区上投入精力减少,结合具体的数据分析后面会提出一些运营的建议
以上是平台总体运营情况,下面通过三个案例进行下场景化分析
- KOL影响力分析
- 用户聚类分析
- 其他可能分析方向
社区KOL分析
知识分享社区中KOL对平台的发展非常重要,如何用数据刻画,通过爬虫我从下面两个维度进行了大V信息的抓取
- 大V文章的影响力数据,包括
- 推荐列表文章数
- 文章的浏览量
- 文章的平均浏览量
- 点赞数
- 平均点赞数
- 回复数
- 平均回复数
- 大V们的社区行为数据,包括
- 发布文章数
- 阅读文章数
- 点赞数(点赞他人文章)
- 推荐数(推荐他人文章)
- 威望
3.png上面的数据哪些最能反应大V的论坛影响力呢? 这里先进行了下关联度分析:
通过关联度的显著分析,我们是否可以这些假设:
-
社区威望,初始规则-基于点赞和被推荐进行计算(目前Furion的设置规则不详?),是否合理的反应了大V的社区影响力(目前Grade并没有太多匹配的强相关数据)
-
推荐和发布文章强相关,说明大家对内容的把握都比较高,认为可以推荐给大家给大家带来一些帮助
-
推荐和文章回复强相关,说明被推荐的文章曝光和响应更多
-
浏览和点赞强相关,说明浏览量大的文章质量都不错
-
浏览和回复强相关,说明浏览量大的文章引出的互动更多
-
点赞和回复强相关,可以作为文章质量的指标
-
阅读和推荐强相关,读文章多的小伙伴在给大家当知识过滤器
总体看,KOL更多还是发表优秀的文章,通过推荐触达更多的用户,由所有用户的点赞、浏览、回复形成影响力。
以上这里KOL的界定还是以经验、数据表现为主,后续在全体用户的分析中,我会尝试通过标注的方式,让机器告诉我们谁是KOL、谁会是潜力KOL
社区用户聚类分析
通过用户的行为数据进行相关的聚类分析,主要数据如下:
- 发布文章数
- 阅读文章数
- 回复文章数
- 点赞文章数
- 推荐文章数
- 社区威望
- 社区积分
- 被点赞数
样本数据如下:
[图片上传失败...(image-585b26-1517376880821)]
执行聚类算法之前的假设,用户分为:KOL高影响力人群、活跃人群、潜力KOL人群、不活跃人群, 具体聚类的过程如下:
- Round1 设置 k=4 聚类结果,发现有个聚簇只有一个样本,查询数据为admin(爬虫),清洗数据继续聚类
- Roudn2 设置k=3,具体结果如下
聚类结果中大部分KOL被分入cluster_2,但是仍旧有不少KOL被列入cluster_1,而且聚簇效果一般。
需要进行数据清理两个办法:
-
数据量纲统一:大部分长尾数据存在的情况下 统一量纲不是一个好选择;
-
离群点处理:这里要注意避免误伤真正的KOL;离群点处理使用数据过滤,维度上设置阈值,针对超出的数据直接丢弃
- 阅读量大的极端用户:read>1000
- 被赞同量大的离群点:agreed>1000 Leo同学是不可复制的
- 无法明确含义的数据:grade列去掉
-
Round3 设置阈值后的聚类效果
-
k=3对应群组: KOL(发表文章、回复文章、被点赞较多)、Follower(阅读、点赞较多)、Un-active(较不活跃)
-
k=4对应群组:cluster_0 36位潜力KOL、cluster_1 106位积极参与者、cluster_2 9位KOL、cluster_3 430人这里区分还是不够清晰
如何进一步尝试,切换聚类的算法?重设k值?
-
-
Round4 设置k=5,大概分群,这次分群有一定聚簇效果,但是可视化效果比较差
- cluster_2低活跃
- cluster_4 阅读和点赞较多
- cluster_1 活跃度更高,开始尝试主动pub
- cluster_0 KOL
- cluster_3 输出为主
-
经过N轮的整理,最后选择k=3
结果的可视化效果(长尾分布可以使用log scale视图),通过调整得到最好的聚簇效果(弱相关特征维度上进行展现)
- x轴-活跃:read 通过浏览和点赞行为可以反映用户的活跃程度;
- y轴-发布:pub 通过发布文章反映用户的主动分享精神;
- 气泡-被赞同:agreed 文章被赞同一定程度反馈了内容的价值和作者的影响力
* 大神:cluster_0(9) 高发布、高认同、高活跃,绝对的KOL(xxxx等大神)
* 勤奋学习者:cluster_1(72) 高活跃、中认同、中发布,积极的学习者和跟随者应该也是在Furion收获最大的一群小伙伴
* 刚来的或者太忙的:cluster_2(500) 可以简单分为两类, 低发布低活跃低认同的小伙伴(可能新同事);中高发布和认同、低活跃的输出型人才(估计都是项目上的大忙人,阶段性的开坛作法,xxxxx等同学)
其他分析,未来引入更多的数据,可能在下面场景进行一些深入的分析
-
KOL预测(这是否一个好问题? 人的行为是否可以预测? 需要引入时序数据? KOL预测的意义和价值是什么?)
KOL预测分析基于前面用户聚类、KOL判断的结果进行数据标注,分组后的数据通过逻辑回归方式进行KOL预测,将无监督学习的成果应用到监督分类模型中。
-
社区活跃预测分析(需要引入时序数据?)
how- 社区后续的运营建议,主要从用户、内容、产品三个角度分析:
- 用户运营:拉新、促活、留存,对用户的价值和激励
- 内容运营:内容的质量、内容的推荐关联度
- 产品运营:哪些产品功能可能引爆用户活跃和增长
用户运营
用户运营的关键在于促活(社区全员参与),增加对用户/员工的价值:
- 激励:通过参与获得积分兑换TD周边,这个要继续做,而且要增加周边的丰富度
- 价值:推荐的文章能让大家真正学到东西,目前的推荐操作可能还是太简单粗暴,是否可以引入更好的推荐机制
内容运营
- 优秀资源的聚合,通过爬虫抓取更多优秀资源
- KOL优质内容的贡献,周期爆款文章是否有额外的积分奖励
产品运营
- 搜索功能的优化,现在联结时代,互联网就是我们的存储器,没有好的索引肯定不行
- 推荐,公司2018年在模型和算法上更进一步,这里可以做个试验田
总体上下面几个建议:
- 技术上,增强搜索、推荐功能
- 运营上,建议由KOL、高活跃用户成立虚拟委员会,每周(选出轮值主席)进行优秀资源更新、推荐文章标注、优秀文章评选等
- 内容上,高价值文章发掘、触达、激励
- 资源上,积分商城持续的运营加力,给大家足够的激励
网友评论