美文网首页
资金流出流入预测-特征工程及建模预测(三)

资金流出流入预测-特征工程及建模预测(三)

作者: 58506fd3fbed | 来源:发表于2020-08-23 22:25 被阅读0次

一、特征工程

1.重要性

数据挖掘二八法则,80%选取特征,20%模型融合。特征越好,模型的性能越出色,构建的模型越简单,模型的灵活性越强。

2.概念

   基于数据分析与探索提取潜在有价值的特征。数据分析与探索-提取特征-分析与因变量关联以筛选有价值特征-特征组合。

3.几大步骤(数据分析与探索-观察数据特点以剔除无用特征-基于相关性分析与独立性分析剔除弱关联特征)

其一特征提取与特征组合:

1)箱型图分析

2)点线图分析

3)离线型特征重要性:可用于设计规则,易于模型拟合,xgboost,lightgbm,catboost等都以决策树为基模型,便于理解,便于做特征组合,在推荐系统等领域很常见。

4)建议的特征提取与组合方式,以理解问题为北京,做数据分析与探索,以时间序列问题为例,常见的特征类别包括统计量(最大值、最小值、中位数、峰度、偏度)、排序、分位数;以推荐系统为例,常见的特征类别包括用户特征、商品特征、行为特征(按时段统计)

其二特征处理-劣态优胜

1)劣态:剔除几乎无关的特征

2)处理自变量间的共线性,可通过特征组合处理;a与b存在共线性,保留a,构造a\b

3)选取好的特征子集

   劣汰后的特征集-特征重要性评估方法-排序后取交集

其三 特征重要性分析方法

1)Mean Variance Test

2)SHAP(SHAP Value为正,表明变量对预测值有促进作用;SHAP Value为负,表明变量对预测值有抑制作用;绝对值越大  =>  对预测影响越大)

3)Permutation Importance(Python包eli5,一个特征被处理为随机数后,若模型效果下降明显,则认为该特征重要)

二、建模预测

1.模型训练与验证

1.1模型训练、预测及线下验证

         训练与预测流程主要为数据集划分及生成-训练模型-模型选择、参数调优-模型融合-线下验证-线上预测。

1)数据集划分,无时序的数据集:简单划分、交叉验证划分等;有时序的数据集:需考虑时序,nested交叉验证划分等

2)模型选择,依据在验证集上的效果选择,除了关注效果的均值,还要关注稳健性,还需考虑线上效果;可将线上效果视为一折数据。

3)参数调优,不建议将精力放在参数调优上;容易过拟合大体的设置参数即可,应将精力重点放在特征工程;其次是模型融合。

1.2常用的回归模型

1)多元回归模型

2)线性回归(可采用最小二乘或梯度下降等方法估计,当变量较多时,建议考虑添加LASSO等惩罚项)

3)决策树(变量选择条件1:为每个变量选择切分点,从而将变量作为节点分裂;变量选择条件2:在分裂后,依据相应分支内所有样本的因变量均值作为估计,并评估拟合误差;贪心策略:综合评价每个变量对上述两个条件的满足程度;CART回归树)

4)随机森林(集成学习之Bagging:随机选取样本、特征,常采用决策树作为基模型

并行集成策略,取所有树的输出均值)

5)梯度提升树(集成学习之Boosting:依据估计误差调整样本权重,常采用决策树作为基模型,串行集成策略)

1.Gradient Boosting Tree

2.Xgboost

里程碑,Gradient Boosting算法的高效实现,考虑了模型复杂度:在目标函数中添加了相关正则化项,拟合效果更佳:对损失函数采用二阶泰勒展开多线程,近年来,被广泛应用于比赛、公司业务

3.LightGBM

微软,更快的训练速度,更低的内存消耗,功能更全面,更新、维护好,将连续型变量离散化后,采用直方图形式获取相应统计量,寻求最优分割点(面试时常问)

4.Catboost

采用特殊的方式处理类别型特征(建模时需指定)使用了组合类别特征,基模型是对称树,运行速度较慢(与CPU版的Xgboost类似)

1.3模型参数

    模型参数的设置,不建议将精力放在调参;黔驴技穷时再调参。仅需大体的设置主要参数即可

例如,Xgboost,learning_rate=0.1,nround=200,max_depth=6

1.4模型融合

 主要策略:

1)加权:算数平均数、几何平均数、调和平均数等

2)Stacking:交叉验证;类似于深度学习

3)Blending:简单划分数据集;相当于只做Stacking的一折

4)模型平均(类似于加权集成策略,统计学领域的研究热点,线性模型的模型平均方法及理论已被研究得很好,S-AIC、S-BIC以及张新雨、梁华等方法)

5)时序方法/模型与机器学习的融合

相关文章

  • Task1 数据探索与分析

    一、赛题介绍 名称:资金流入流出预测赛题背景:拥有上亿会员,每天都涉及大量的资金流入和流出,资金管理压力会非常大。...

  • 2019-04-13

    时序预测: 数据流入流出预测https://tianchi.aliyun.com/notebook-ai/deta...

  • 利用ARIMA模型预测资金流入流出

    一、 数据说明: 针对全国的余额宝用户,按照一定的规则抽样,给出对应的性别、城市和星座 针对抽样用户,抽取他们的余...

  • 2、机器学习系统搭建流程

    一、机器学习系统搭建流程 原始数据文本图像语音 数据预处理 特征工程 (向量/矩阵) 建模 预测 备注: 机器学习...

  • 无标题文章

    python 机器学习 预测分析核心算法 特征提取和特征工程 确定哪些特征可用于预测也需要尝试。这个过程就是特征提...

  • 构建预测模型的流程

    1.提取或组合预测所需的特征确定哪些特征可用于预测也需要实验尝试。这个过程就是特征提取和特征工程。特征提取就是一个...

  • 数据挖掘实践(资金流入流出预测)task1

    1、绘制时序图 2、小提琴图和分布图

  • Airbnb 新用户的民宿预定结果预测

    摘要本文主要根据对Airbnb 新用户的民宿预定结果进行预测,完整的陈述了从数据探索到特征工程到构建模型的整个过程...

  • 筹资管理计算

    资金需要量预测 资金需要量预测是筹资的数量依据,进行科学的预测,那么从预算管理的角度来看,实际上对资金需要量预测就...

  • 预测分析研究

    预测算法用java实现 数学建模spss时间预测 Arima模型分析预测 基于R语言的上海房价预测 R学习日记——...

网友评论

      本文标题:资金流出流入预测-特征工程及建模预测(三)

      本文链接:https://www.haomeiwen.com/subject/orsojktx.html