数据分析思维学习笔记-3

数据分析思维学习笔记-3

作者: 姽婳之语 | 来源:发表于2019-06-18 22:15 被阅读2次

数据分析思维学习笔记-3
大师兄的数据分析学习笔记(八）：探索性数据分析（七）
【课程笔记】《Udacity数据分析（入门）》「纳米学位」——第
列一列今年想记录和写的内容
DAY7+ 学习笔记 by 康康
单细胞组学系列学习笔记
思维导图双证班-作业9 思维导图关键词之道
大师兄的数据分析学习笔记(三十三）：模型评估（二）
收藏的文章
数据分析基本概念

互联金融行业toC授信模型

背景

互联网金融的本质是风控，目前金融行业都看重风控，主要基于央行的个人或企业征信报告。

行业岗位

风控分析师：除了一定的模型理解能力，需要大量行业和法律法规经验
数据建模师：要求对算法理解较深，相对行业经验要求不高
数据挖掘分析师：一般由数据建模师或产品经理兼职

行业产品对象

toB：对公业务，由定量打分卡和定性行业经验决定
toC：个人业务，由个人信用分决定，其个人信用分主要依赖于央行征信报告

数据建模师的主要工作

获取数据源，建立信用评分模型，模型上线后监控维护，以及其他数据挖掘工作

授信模型建立

授信模型结构

image.png

身份特质：最重要的一般包括自身学历，工作单位，年薪等，可以一定程度代表着稳定性
履约能力：个人收入组成及具体收入金额，代表着兜底性
信用历史：即历史贷款还款记录，代表着历史性
人脉关系：稳定性验证与弱价值性
行为偏好：真正价值性

数据源

可以获取到的数据源成百上千，但并非数据源越多越好，变量越多导致计算量越大
原始变量：直接存在在数据源中的数据
衍生变量：通过原始变量及时得到的，一般分为时间维度衍生，函数衍生，比率衍生
基于RFM（最近、频次、钱）原则选择变量

数据处理

数据处理和数据建模并非一成不变的，而是慢慢迭代优化的
前期数据处理
- 数值型和字符型字段缺失性和合理性校验，剔除无效字段
- 数值型字段相关性验证
- 字符型字段离散化处理（数值化）
- 数据标注啊（对模型效果无明显影响）

数据建模

graph TD
A[综合芝麻分] --> B[综合概率/违约概率]
B --> C[五个模块违约概率加权平均]
C --> |权值Q1| D[模块1违约概率]
C --> |权值Q2| E[模块2违约概率]
C --> |权值Q3| F[模块3违约概率]
C --> |权值Q4| G[模块4违约概率]
C --> |权值Q5| H[模块5违约概率]
D --> |逻辑回归| I[模块1训练集和测试集]
F --> |逻辑回归| J[模块3训练集和测试集]
E --> |逻辑回归| K[模块2训练集和测试集]
G --> |逻辑回归| M[模块4训练集和测试集]
H --> |逻辑回归| N[模块5训练集和测试集]

模型离线效果指标

混淆矩阵：查准率和查全率
ROC曲线：根据混淆矩阵做出的，区分模型是否较好把好坏样本分开的一个图，越大越好
坏账率：实际工作中的北极星指标

模型运行周期

模型迭代数据往往很快（一个月），需不断调整权值和系数，慢慢优化，优化效率就由坏账率衡量

模型落地

初期：
- 共享金融数据样本给芝麻信用，芝麻信用的数据建模师根据模型给出违约概率
- 根据违约概率，计算模型准确度
- 当模型准确度达到90%，开始合作（用户群体覆盖度和模型准确度有关）
中期：
- 芝麻分只是参考维度之一，一般根据央行征信报告评估值、芝麻分、信用评估分，计算可贷款额
后期：
- 每周对坏账情况，需要调参：
- 找出是某个模型出问题引起的还是所有模型引起的
- 如果子模型只要调整参数，反之，重新对数据建模（处理）

相关文章

数据分析思维学习笔记-3
互联金融行业toC授信模型背景互联网金融的本质是风控，目前金融行业都看重风控，主要基于央行的个人或企业征信报告...
大师兄的数据分析学习笔记(八）：探索性数据分析（七）
大师兄的数据分析学习笔记(七）：探索性数据分析（六）[https://www.jianshu.com/p/a3e3...
【课程笔记】《Udacity数据分析（入门）》「纳米学位」——第
第3部分：数据分析入门笔记有点乱，仅作为学习记录作为参考数据分析入门 - 总共分为10部分：数据分析过程...
列一列今年想记录和写的内容
1，后台的产品经理工作日常记录和心得 2，机器学习学习笔记，今年估计主要在推荐算法这边 3，数据分析方法 4，数据...
DAY7+ 学习笔记 by 康康
《R与tidyverse——数据分析入门》学习笔记 R与tidyverse——数据分析入门[https://tia...
单细胞组学系列学习笔记
scRNA-seq数据分析 Seurat包学习笔记 Seurat包学习笔记（一）：Guided Clusterin...
思维导图双证班-作业9 思维导图关键词之道
思维导图笔记本次课程导图笔记通过四个部分来完成：一，开启全新思维的学习方式 ==》学习方式充分学习广度分析...
大师兄的数据分析学习笔记(三十三）：模型评估（二）
大师兄的数据分析学习笔记(三十二）：模型评估（一）[https://www.jianshu.com/p/3adec...
收藏的文章
MATERIAL DESIGN的学习笔记 App数据分析精品教程
数据分析基本概念
一直在说大数据、数据分析、数据挖掘等。开始系统的学习下，学习笔记如下： 1、数据分析：用适当的统计分析方法将收集来...

网友评论

大数据

本文标题：数据分析思维学习笔记-3

本文链接：https://www.haomeiwen.com/subject/nexcqctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

大数据

关于我们|服务条款|联系我们|数据分析思维学习笔记-3|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！