此文为学习数据分析A+课程后的第3篇内容输出。仅供参考,如有必要请购买相关课程。(本文基本和课程无关)
“使用R进行贷款信用评级模型实操”是我写这篇文章触发器。
对于实操课写笔记,如果只是列操作步骤那么就是停留在法和术的层面,有没有办法升维到道的层面,是我觉得对课程的进一步理解所不可获取的,上能总结出普遍规律,下能完成操作形成成果,是任何一个事物学精通的必要条件。
从实际应用上讲,目前我还没有学习R,只是听公开课,我得到的只是一些粗浅的心里表征,但我觉得记录下来,是梳理思路触发进一步学习源头。我看到的这门实操课的通用的指导我们日常行为的内容如下:
一、理解和收集信息
无论要学习或者生成什么作品,首先是熟悉这个领域。
对于分析来说,要做的是熟悉业务本身以及理解相关数据信息。知道为什么要这么做才能建立相关的动作去完成。
在理解信息的过程里,需要知道这个信息的含义以及是如何判断的,即标准。标准是建立模型的依据,对于万事万物其实我们内心都有一套评价体系在。当下要用模型处理问题,也要能够找到一套评价体系。
这套评价体系要考虑的尽可能全面,比如,有哪些特殊情况是应该排除的,建立的依据到底是什么等。这些基于对历史情况的了解。
例如,我评价一个男生符合不符合我的择偶标准,我要做的首先是去收集这个男生尽可能多的信息,去理解他的过往,他的思维模式和生活状态。设定好,我到底要选哪些具体信息去收集,可能包括硬性条件和软性条件。
我要设定我要采集多少个男生的信息来画像,设定好这个标准,按照刚才所说的了解一个男生的步骤去演绎了解到更多。同时,我要排除那些本不可能属于我择偶范围的男生,比方说年龄同我相比上下浮动超过3岁等,建立好自己的评价规则,采集有效样本信息。
这其中的采集也可能因为各种原因出现不符合预期的样本,就需要通过如清洗数据的方式把这部分采集的数据做清洗,确保信息可被研究和利用。
大体步骤我认为是:
理解目标现状、了解自身需求→排除异常信息、建立评价规则→收集足够的样本信息→筛选过滤掉“脏数据”
二、建立模型
利用样本信息和足够的理论知识及经验建立模型,让模型尽可能适用于分析的情况,能带来有效的分析结果。
还是从采集男生信息的例子看,我需要建立一套基于这些信息的逐一了解后,我到底要一个什么样的人的模型,他和我必须是适配的。我们是在这个模型中的两个变量,脱离任何一个人的情况都不能让模型有效。
如果对方是个高富帅,那么以我的能力能不能驾驭。如果对方能力低,那么我能不能接受。模型需要拟合各方的情况做出判断。
让采集的人都能在放到这个模型判断后得出一个相对靠谱的结果,供我进一步的去接触某些较为适配的人。
三、模型评估
进一步接触得到的结果,做出评估模型的精准度。它是否真的帮助自己处理了大量的信息得到一个有效的结果。
如果我利用模型找到符合标准的男生后,在进一步接触中发现对方和预期差距很大,那么说明我的模型设置有误。需要重新排查检验是我的模型的问题,还是样本筛查等之类的问题。要多找几个符合的男生接触去做验证评估。
四、模型监测
模型的监测分为模型稳定性和正确性的监测,同时要考虑影响模型的因素有没有发生变化,定期检验模型的适用性。
找到适配男生后,通过不断地交往去验证其和自我在实际相处中是否能较为稳定的符合彼此的模型,出现异常其情况能否较快的调整到被监测合适的正确范围。考虑经历一些诸如旅行之类的变化行为的时间去检验影响因素变化,适配的稳定性和有效性。
当然,感情可能并不能如此模型化理论化去操作,但其实在我们进化的大脑中,无论处理数据信息还是别的什么,都是通过输入接收信息,通过输出释放信息的过程。至于中间的处理信息的黑箱子,可能打开看就是如此理性(冰冷)。
也许数据分析就是让我们把处理信息的黑箱白箱化,把复杂的输入变成简单的输出的过程。
网友评论