在日常数据分析过程中,数据建模是必不可少的一个环节。在大多人眼里,数据建模有点所谓的‘高深莫测’,其实纵观整个分析流程来看,数据建模也有一套可遵循的方法论。常用的建模流程:提取变量-选择算法-调整参数-评估模型
1、提取变量
前期了解业务需求、完成数据探索后,数据分析师要保持‘大胆假设小心求证’的思维方式进行变量的穷举,坚持做到业务下沉,将变量与业务紧紧联系在一起;另外从数据本身的特性来讲,像空值、不一致、噪声数据达到一定比例或经过预处理后需考虑其分析及影响的价值有多大,严格避免出现‘垃圾进-垃圾出’的分析问题。
2、选择算法
当面对选择使用何种算法的时候,数据分析师不应追求算法何其高大上而去选择特定的某种算法,数据分析的目的是帮助决策者解决业务问题、发现数据商业价值,理应从分析的终极目标来选择合适的算法,借此结合互联网行业应用场景列举以下常用算法:
用户群分/特征分析:分类、聚类
营销预测/欺诈预测:逻辑回归、支持向量机、随机森林
信用评估/风险等级:逻辑回归、决策树
交叉销售/实时推荐:关联规则
目标制定/计划制定:线性回归
通常在分析的过程中,由于算法自身的局限性,我们会根据分析目标及业务数据的情况选择不同的算法进行综合评估择以最优,还可以通过使用集成算法来弥补单一算法的缺陷让模型达到更好的效果。
3、调整参数
参数调整在建模过程中是一个不断修正的过程,比如像聚类算法K值参数的设定,可通过可视化图表人为观察哪个K值合适,还可通过轮廓系数的大小来确定K值,这样不断调整参数让数据分析师能对模型‘知其所以然’,最终达到模型最优化。
4、评估模型
一般各类算法都会有各自的评估指标作为模型好坏的评判标准,比如说像回归类模型主要有均方误差MSE,解释方差分,R方得分等指标;像分类模型主要有准确率,精确率,召回率,F1值等评估指标。当模型效果达不到业务需求的时候,我们可以通过参数调优,增加样本训练集,增加新的变量特征等方式进行模型调整,最终正式投产进行结果输出。
以上是笔者在工作学习中总结并践行的一套建模方法论,当数据分析师面临新的任务需求时也可遵循以上流程快速进行建模分析,这样可避免分析无头绪、一把抓的情况。
网友评论