在社区运营的工作当中,对于爬虫和马甲工具的使用应该不陌生,本文简单介绍在内容社区中如何将爬虫和马甲工具运用起来。爬虫和马甲是两个很广泛的技术了,这里主要指在内容社区当中,爬虫技术将内容源爬取过来,通过马甲账号来将内容分发到站内。
搭建内容爬虫的目的主要就是获得更多的内容,但是当我们得到海量内容信息时,应该如何做筛选、过滤和分发呢?
一般内容爬虫投放的链路
内容源爬取→入库去重→文案的审核过滤→投放队列→马甲匹配→水印处理→内容分发
这个过程技术可以实现自动抓取、过滤、投放,但需要运营介入的地方有非常多的。因为不一定所有的内容抓过来可以直接使用,首先就要对内容源进行筛选。
1.内容源筛选
内容源来源可以从各大平台进行收集,但首先需要确定技术上可以支持哪些平台的内容爬取。
比如说,已经实现对抖音、快手、微博的视频源抓取了,那如何找到合适的内容呢?
借助第三方数据平台,比如飞瓜数据、Toobigdata。通过他们的榜单来辅助你寻找所需要的类目Top的账号,再对账号源进行收集,获取到账号的唯一id,就得到了内容源列表,实现内容爬取的第一步。
2.文案的审核过滤
爬取过来的视频源,不可能100%符合站内的内容要求的。这里说的是视频文案,总会有带Tag的,带平台名称的,@人的等等与目标社区调性不符合的文案的。所以需要一套文案过滤的规则,比如说 文案含平台名称自动删除、文案含@及其以后的文案自动删除等规则依据平台情况设计。
同时需要考虑到,平台的内容发帖字数限制,比如说发帖不得少于5个字。那通过第一轮的过滤文案后,少于5个字怎么办呢?
1.补表情
2.替换成万能文案
到这一步,爬取过来的内容基本上匹配马甲便可以投放使用了,内容的合规就与平台内容审核环节保持一致即可。但这还是属于比较粗犷的爬取投放,更加精细化的运营内容源的话,可以增加一个内容标签的环节以及马甲分类。
即,通过内容标签,将特定马甲和特定内容源捆绑起来,实现这一批马甲只发这一类型的内容。
这种方式,可以让马甲账号的内容更加的垂直,在账号内容管理上以及账号吸粉上都有较大意义。
上面的泳道图则是加入了内容源分类标签和马甲账号分类的环节。
除了以上所述,还有很多细节需要在实际过程中进行设计,如内容规格(清晰度、像素、字数等限制)?爬取频次?投放频次?等等需要结合平台实际情况进行设计。
进行数据监测
从内容爬取到投放的流程大致如此,但爬虫内容上线后,可能会发现诶不知道哪些内容源数据情况更好?哪些内容不符合站内调性?数据情况不是特别好掌控。
那在这种情况下,可以考虑做一个爬虫源的数据监测后台。
做数据监测的目的:
1.监控内容源的质量。通过率低的源进行观察考虑删除;优质内容源给予更多的曝光和分发。
2.把控爬虫工具对社区的投放效率,通过爬虫给站内带来多少有效内容。
主要是对内容源中通过率、点赞数、热门数等进行统计,判断一个内容源的质量优劣。
跑通了从抓取-投放的流程,以及数据的监控,一个完整的爬虫后台就完事了。实际运用起来,对社区内容冷启动沉淀,社区内容产量不足,拓宽内容的边界等等情况都有很大帮助。最后,内容爬虫虽好,但也要注意的是内容爬取是有法律风险的,因此需要做好规避哦。
网友评论