ML难不难？（二）

作者: iShareOne | 来源:发表于2016-11-04 22:49 被阅读30次

机器学习流程

今天我们来说下，一个完整的机器学习流程主要包括哪些步骤？

数据获取

数据分析，我们分析的数据，数据从何而来，肯定不是天上掉下来的，也不是大风刮来的，而是我们通过各种手段得来的。数据获取，就是我们得到数据的方法。

爬虫获取

网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

写到这里的时候，我对爬虫也是只是知道它是干啥的，但一个真正的爬虫程序都没有写过。通过爬虫，我们可以方便而高效地获取到网络上大量的数据，供以我们进行分析。
数据库
这类数据，主要存放于公司数据库，通过相关工作人员我们可以轻松获取到。
Excel文档
这是我生活经常用到的，其实更多的是csv格式的数据集，轻量级，体积小，便于处理和分析。

数据处理

我们拿到了食材，要考虑下这顿饭怎么做了？
但是真的现在就要做了？你确定？我们肯定要洗菜，择菜，切菜等等步骤，这像极了我们的数据处理。

文本处理
主要包括一些正则表达式，自然语言处理等。
量纲一致
主要包括数据的归一化，标准化等。
降维问题
包括使用PCA进行降维操作等。

数据处理是一个机器学习项目中耗时最多的一个节点，所以我要在这里好好地打好坚实的基础。

建立模型

现在我们要开始做菜了。
我们要知道自己想使用哪种模型，是线性模型还是非线性模型，如何通过对业务的理解来选取特征向量（特征工程），这是这个节点最重要的一点。
特征工程决定了模型所能达到的准确率上限，而不同模型只能无限接近于上限。

模型评估

我们做好了菜，是不是该吃了？
当然不能，我们应该先自己尝一尝，当然也属于吃。我们要对自己的模型进行评估，也就是这道菜好不好吃。
评估，我们由许许多多的标准，比如准确率（Accuracy），精确率（Precision），召回率（Recall），F1指标（分为宏观指标和微观指标）等等，我们要选择比较有说服力的指标进行评估。进而选择出最佳的模型及其参数。

上线部署

本节点由于暂时还没有机会领略，不作解释，留坑，日后自填。

看起来，貌似很简单，做起来，其实还是要看自己。

网友评论

机器学习与数据挖掘

本文标题：ML难不难？（二）

本文链接：https://www.haomeiwen.com/subject/svpwuttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

ML难不难？（二）

数据获取

数据处理

建立模型

模型评估

上线部署

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

机器学习与数据挖掘