美文网首页数据科学家玩转大数据大数据 爬虫Python AI Sql
图算法如何刻画申请人群中的高危特征?

图算法如何刻画申请人群中的高危特征?

作者: 众安数盟 | 来源:发表于2017-07-17 13:52 被阅读259次

    前言

    关于图的论述起源于经典的柯尼斯堡(Konigsberg)问题,最早的文字记载出现在欧拉1736年的论著中。经过几个世纪的发展,图论及相关算法已经取得了充足的发展。所谓图,就是由若干节点及连接各节点的边抽象而成的图形,通常用来描述事物之间某种特定的关系。图有很多存在形式,如地图、社交网络图、资金流图和企业关系图等,相伴产生的应用有很多,如邮递员问题、社交网络分析、反洗钱模型和企业风险评估模型等。图算法在图的基础上刻画节点与边的各种特征,如最短路径、连通子图、社区发现和标签传播等。

    1、图算法与反欺诈

    在现实世界中,从实体的图(像路网、电网和互联网等)到虚拟的图(像微博、朋友圈和通讯录等),图的存在形式各有不同。在反欺诈应用中,网络中实体(如人、设备、邮箱、卡号等)都可以用节点表示,而这些节点在业务中的关联可以用边表示。通过不断构建再现这些关联,进而探查欺诈特征并设计风控策略。下图展示了一个真实现金贷场景的欺诈团伙,三个严重逾期的子团在图中清晰可见(图片来自众安自主研发的Xanalytics®智能分析平台,关于该平台想了解更多,请看文末联系方式)。


    图算法能够刻画申请人群中的各种高危特征(如批量攻击、中介参与等),而可视化工具则可以将各种作案真实情景再现。通过图算法自动产生离线标签,可以配合在线规则进行欺诈风险实时拦截;借助可视化工具,不断探索欺诈特征从而不断优化图算法的特征刻画精度,能够实现人机闭环的反欺诈产品运营。

    2.怎么实现

    目前能够实现图算法的框架有很多,像Google的Pregel、开源的Giraph和基于Spark的GraphX等。这些框架各有优势,有的处理量级大,有的框架稳定,有的时效性好。在实际应用中,需综合考虑几种技术的优劣并结合企业自身情况做出取舍。开源的技术可以快速落地,但无法按照企业自身业务进行定制;自主搭建的框架与企业自身业务更加契合,但需要高端人才的储备和较长的迭代开发周期。值得指出的是,在图算法开发及应用过程中,不必一味追求实时计算,在一定程度上使用离线方式部署可以绕开技术瓶颈、释放计算压力。具体可参见上一期点击查看>>“在线与离线”。

    3.如何应用

    反欺诈中有几个常见的应用,一个是“物以类聚人以群分“:如果申请人在好人群组中,他的欺诈风险相对较低;如果申请人在坏人群组中,他的欺诈风险相对较高。图算法可以发现人海之中那些聚集在一起的群组,并结合群体特征,智能识别这些群组中的哪些会是潜在欺诈团伙。

    另一个是“近朱者赤近墨者黑“:与好人关系密切的人会偏好,与坏人关系密切的人有变坏的风险。在真实的消费金融场景中,好人和坏人之间往往也存在千丝万缕的联系(如社交关系),可以运用图算法刻画人与人之间的紧密程度或相似程度,并通过标签传播的方式定位混合群组中的好人子群和坏人子群。需要注意的是,在这个过程中,关系类型要进行精细化区分,尽可能保证好人群组和坏人群组的隔离。

    最后“射人射马擒贼擒王”,一个头领是整个团体的核心,找到核心可以事半功倍。图算法可智能识别群组中的核心成员,而核心成员在现实业务中往往会扮演黑中介的角色。中介对现金贷场景的危害已广为所知,中介模型的效果也已得到过确凿的验证(如下图)。但需要特别指出的是,中介本人的征信往往将其指向优质人群;毕竟,职业属性并不是判断信用、欺诈属性的唯一标准。


    总结

    图算法的应用是一个不断探索和优化的过程。怀着对数据的敬畏之心不断净化网络信息,并怀着对风险的敬畏之心不断探索欺诈特征,是图算法在反欺诈策略中应用的重中之重。

    聚类算法在很多场合被提及,有的基于距离,有的基于密度。下期我们将聚焦聚类算法在反欺诈中的应用。

    如有转载或合作需求,欢迎联系我们

    邮箱:wuxiaolan@zhongan.io

    微信:1084569292

    相关文章

      网友评论

        本文标题:图算法如何刻画申请人群中的高危特征?

        本文链接:https://www.haomeiwen.com/subject/xtpfkxtx.html