美文网首页大数据
数据分析思维学习笔记-3

数据分析思维学习笔记-3

作者: 姽婳之语 | 来源:发表于2019-06-18 22:15 被阅读2次

    互联金融行业toC授信模型

    背景

    互联网金融的本质是风控,目前金融行业都看重风控,主要基于央行的个人或企业征信报告。

    行业岗位

    • 风控分析师:除了一定的模型理解能力,需要大量行业和法律法规经验
    • 数据建模师:要求对算法理解较深,相对行业经验要求不高
    • 数据挖掘分析师:一般由数据建模师或产品经理兼职

    行业产品对象

    • toB:对公业务,由定量打分卡和定性行业经验决定
    • toC:个人业务,由个人信用分决定,其个人信用分主要依赖于央行征信报告

    数据建模师的主要工作

    获取数据源,建立信用评分模型,模型上线后监控维护,以及其他数据挖掘工作

    授信模型建立

    授信模型结构
    image.png
    • 身份特质:最重要的一般包括自身学历,工作单位,年薪等,可以一定程度代表着稳定性
    • 履约能力:个人收入组成及具体收入金额,代表着兜底性
    • 信用历史:即历史贷款还款记录,代表着历史性
    • 人脉关系:稳定性验证与弱价值性
    • 行为偏好:真正价值性
    数据源
    • 可以获取到的数据源成百上千,但并非数据源越多越好,变量越多导致计算量越大
    • 原始变量:直接存在在数据源中的数据
    • 衍生变量:通过原始变量及时得到的,一般分为时间维度衍生,函数衍生,比率衍生
    • 基于RFM(最近、频次、钱)原则选择变量
    数据处理
    • 数据处理和数据建模并非一成不变的,而是慢慢迭代优化的
    • 前期数据处理
      • 数值型和字符型字段缺失性和合理性校验,剔除无效字段
      • 数值型字段相关性验证
      • 字符型字段离散化处理(数值化)
      • 数据标注啊(对模型效果无明显影响)
    数据建模
    graph TD
    A[综合芝麻分] --> B[综合概率/违约概率]
    B --> C[五个模块违约概率加权平均]
    C --> |权值Q1| D[模块1违约概率]
    C --> |权值Q2| E[模块2违约概率]
    C --> |权值Q3| F[模块3违约概率]
    C --> |权值Q4| G[模块4违约概率]
    C --> |权值Q5| H[模块5违约概率]
    D --> |逻辑回归| I[模块1训练集和测试集]
    F --> |逻辑回归| J[模块3训练集和测试集]
    E --> |逻辑回归| K[模块2训练集和测试集]
    G --> |逻辑回归| M[模块4训练集和测试集]
    H --> |逻辑回归| N[模块5训练集和测试集]
    
    模型离线效果指标
    • 混淆矩阵:查准率和查全率
    • ROC曲线:根据混淆矩阵做出的,区分模型是否较好把好坏样本分开的一个图,越大越好
    • 坏账率:实际工作中的北极星指标
    模型运行周期

    模型迭代数据往往很快(一个月),需不断调整权值和系数,慢慢优化,优化效率就由坏账率衡量

    模型落地
    • 初期:
      • 共享金融数据样本给芝麻信用,芝麻信用的数据建模师根据模型给出违约概率
      • 根据违约概率,计算模型准确度
      • 当模型准确度达到90%,开始合作(用户群体覆盖度和模型准确度有关)
    • 中期:
      • 芝麻分只是参考维度之一,一般根据央行征信报告评估值、芝麻分、信用评估分,计算可贷款额
    • 后期:
      • 每周对坏账情况,需要调参:
      • 找出是某个模型出问题引起的还是所有模型引起的
      • 如果子模型只要调整参数,反之,重新对数据建模(处理)

    相关文章

      网友评论

        本文标题:数据分析思维学习笔记-3

        本文链接:https://www.haomeiwen.com/subject/nexcqctx.html