今天我们来说下,一个完整的机器学习流程主要包括哪些步骤?
数据获取
数据分析,我们分析的数据,数据从何而来,肯定不是天上掉下来的,也不是大风刮来的,而是我们通过各种手段得来的。数据获取,就是我们得到数据的方法。
-
爬虫获取
网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
写到这里的时候,我对爬虫也是只是知道它是干啥的,但一个真正的爬虫程序都没有写过。通过爬虫,我们可以方便而高效地获取到网络上大量的数据,供以我们进行分析。
-
数据库
这类数据,主要存放于公司数据库,通过相关工作人员我们可以轻松获取到。 -
Excel文档
这是我生活经常用到的,其实更多的是csv格式的数据集,轻量级,体积小,便于处理和分析。
数据处理
我们拿到了食材,要考虑下这顿饭怎么做了?
但是真的现在就要做了?你确定?我们肯定要洗菜,择菜,切菜等等步骤,这像极了我们的数据处理。
- 文本处理
主要包括一些正则表达式,自然语言处理等。 - 量纲一致
主要包括数据的归一化,标准化等。 - 降维问题
包括使用PCA进行降维操作等。
数据处理是一个机器学习项目中耗时最多的一个节点,所以我要在这里好好地打好坚实的基础。
建立模型
现在我们要开始做菜了。
我们要知道自己想使用哪种模型,是线性模型还是非线性模型,如何通过对业务的理解来选取特征向量(特征工程),这是这个节点最重要的一点。
特征工程决定了模型所能达到的准确率上限,而不同模型只能无限接近于上限。
模型评估
我们做好了菜,是不是该吃了?
当然不能,我们应该先自己尝一尝,当然也属于吃。我们要对自己的模型进行评估,也就是这道菜好不好吃。
评估,我们由许许多多的标准,比如准确率(Accuracy),精确率(Precision),召回率(Recall),F1指标(分为宏观指标和微观指标)等等,我们要选择比较有说服力的指标进行评估。进而选择出最佳的模型及其参数。
上线部署
本节点由于暂时还没有机会领略,不作解释,留坑,日后自填。
看起来,貌似很简单,做起来,其实还是要看自己。
网友评论