原创作品,转载请注明出处。
关注公众号「热薯条」获取更多精彩文章。
前言
上一期我们讲到了,透过初步数据洞悉,我们猜测可能存在这么一群人,构成猫币黑市并进行交易。那么接着最关键的问题就是,我们该如何透过历史行为数据精准地找到这些黑产并将他们跟正常用户区分开来呢?
这一期主要我们想介绍,如何利用原始数据,经过数据处理、特征工程后得到有用的特征,并且如何施加对业务上的理解和公式到特征中,得到最终总权重来为图计算做准备。
流程
技术流程图
大数据和人工智能的核心就是数据,有了数据我们才能深入挖掘每个用户的行为特征,并进行归类。这里我们使用的历史数据包含环境数据、用户行为数据以及用户生产数据,基于口令红包和车队红包等数据我们建构一张基本的图,接着使用用户设备信息、IP信息、昵称相似度、弹幕相似度、抢红包行为等进行加权,调整用户之间联系的强弱,最终得到一张完整的图。
基于这些数据,通过数据计算平台数据清洗、数据整理、特征提取,通过图计算平台进行社群挖掘算法实现,就能够找出不同用户之间的相关性,并提取重点群体进行深入观察、研究。
数据预处理
我们的目标是尽可能得从原始数据上获取有用的信息,一些原始数据本身往往不能直接作为模型的变量。
在此对一些我们遇到的数据预处理工作进行举例。
从cookie中提取关键信息
由于后面需要用到用户 pdft(设备号),rid(用户)等相关信息,我们需要对cookie中的信息进行提取:
cookie = 'R=r%3D14***********D,pdft=20180********************b,__guid=9*****.1*****.1***.****,pdftv1=****
使用正则表达式即可提取出关键信息:用户 pdft,rid
rid = 14******
pdft = 20180*******b
特征工程 (Feature Engineering)
数据和特征决定了上限,而一个好的模型只是逼近那个上限而已。
其他用户之间的关系的维度
用户忠诚度参数
总权重
这样加入到全局当中,即可求得所有用户的总权重。
以上公式、模型中的权重、细节等只作为举例指出,实际操作中的公式由反复调参、迭代后得到。
下期前瞻
得到权重后,当然就是画出连通图寻找社群关系了。下一期我们将重点介绍如何进行绘图,从连通图中进行社区发现 (community detection),社区发现不同算法的介绍,以及是如何运用到我们的模型上找出红包黑产的。
更多精彩推荐:
猫币黑市第一期——通过大数据,机器学习揭露互联网直播行业黑产
原创作品,转载请注明出处。
关注公众号「热薯条」获取更多精彩文章。
网友评论