本文导航
1、前言
2、接口应用常见问题冗余重复
质量不一、成本不同、格式各异
3、我们的经验
前言
有人说13年是大数据元年,14年是互联网金融元年,而15年是消费金融元年,不论哪种说法,都在说一件事,近几年来互联网背景下的大数据和消费金融在中国可谓是风生水起,一时无两。
如今无论线下和线上,还是定期理财和信用借贷,各种金融产品已经琳琅满目繁花似锦,互联网消费金融出现了空前的繁荣。在互联网架起的高速路上,金融的列车在风驰电掣,然而与之相伴的不只是快速的发展和丰厚的回报,还有各种暗流涌动的风险。为了应对和控制风险,业界在大数据风控领域的研究也在不断的发展和上升。
本期我们抛砖引玉,讲讲我们在探索大数据反欺诈过程中的遇到的问题和总结的经验。
常见的问题
伴随着互联网消费信贷的发展,大数据与反欺诈风险的切实需求相结合,市面上出现了各式各样的反欺诈服务和产品,与我们合作的供应商已经超过50家,在使用中会碰到哪些问题,又该如何利用好这些服务或产品是大家一直很关心的,下面是我们总结的几点。
1、冗余重复
每家服务商擅长的领域是有差别的,有的提供核身验证(人脸识别、实名认证等)服务,有的汇集电信运营商数据(核实手机电话等通讯信息等),有的提供负面信息(犯罪、司法等)核查,有的提供借贷记录(逾期时间、金额、严重程度等),有的提供多头借贷(借款机构平台数等),还有很多其他各式各样的行为数据或评分等。丰富的种类给数据应用打开了很多扇门,但也出现了很多冗余重复的情况,比如几家服务商都有黑名单数据但来源几乎是同一个。
2、质量不一
每家数据服务商所提供数据的质量也是各有各的问题。从风险评估的粒度上看,有的只提供汇总的评分,有的只提供明细,有的既有评分也有明细。从风险拦截的效果上讲,有的服务商数据准确程度高但只能覆盖一小部分有风险的人,有的准确程度低但覆盖的风险人群范围大。质量不一带来的差异,使得我们在应用接口数据时不能一概而论,要经过谨慎的效果评估,否则会误伤太多,影响产品体验。
3、成本不同
各家数据服务商在收费定价上也是千差万别。有的服务商查询即收费(查一条收一次费),有的查得才收费(查到坏人才收费),有的则有免费条数(在一定数量内免费查,超出才收费)。对某些小额的产品使用高价的接口,会造成入不敷出,产品收益还不足以覆盖接口成本,成本也是接口应用中必须考虑的一个问题。
4、格式各异
每家服务商的在系统对接上各有各式,返回的数据格式各有特色,有的服务商提供的数据一个人一行记录,有的则一个人多行记录,有的一个人一行记录但某个字段会包含多个变量而且存放无序。要将各个接口的数据整合起来,对一个人做统一的多方位评估,数据存储的格式问题是要首先解决的。
我们的经验
面对以上问题,如何有效的评估和应用这些接口,并在量化的基础上做到成本的最优化,我们探索并归结了一个“总分总”方案。
总
第一个总是“制定统一的评估标准,使用相同的测试样本”,统一的评估标准方便理解和效果解释,相同的测试样本则可以使不同接口效果可以比较。
分
第二个分是“接口分类规则细分,样本分场景分时间”,接口分类规则细分是要明确接口提供哪方面的服务和提供哪些维度的判断,样本要分场景分时间收集则是为了使评估更全面并实现不同场景效果差异的可区分。
总
第三个总是“规则分级,风险评分,统一应用”,“统一应用”不是使用完全一样的口径做输出,而是在“规则分级”和“风险评分”的基础上达到规则和评分的灵活应用和部署。“规则分级”是根据规则效果形成不同等级的规则包,我们可以根据规则准确率递减和覆盖率递减,形成如下的规则矩阵,如图:
每个服务商的每条规则都会分布到矩阵的某个格子里,相同等级的规则聚集在一起。“风险评分”则是搭建评分模型,汇总申请人在身份特质、风险记录、高危行为、多头借贷和恶意逾期等维度的数据,综合评估申请人群的欺诈风险。
“统一应用”的关键在于权衡在不同的规则等级和风险评分下,反欺诈体系的准确率和覆盖率如何,考虑在保证或达到多少的风险覆盖时规则会达到怎样的准确率,同时将付出多少征信成本,输出通过、拒绝还是人工。
大数据反欺诈,不仅是博采众家之数据,更是用众家数据之长。
网友评论