ML难不难?(二)

作者: iShareOne | 来源:发表于2016-11-04 22:49 被阅读30次
    机器学习流程

    今天我们来说下,一个完整的机器学习流程主要包括哪些步骤?

    数据获取

    数据分析,我们分析的数据,数据从何而来,肯定不是天上掉下来的,也不是大风刮来的,而是我们通过各种手段得来的。数据获取,就是我们得到数据的方法。

    • 爬虫获取

      网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

      写到这里的时候,我对爬虫也是只是知道它是干啥的,但一个真正的爬虫程序都没有写过。通过爬虫,我们可以方便而高效地获取到网络上大量的数据,供以我们进行分析。

    • 数据库
      这类数据,主要存放于公司数据库,通过相关工作人员我们可以轻松获取到。

    • Excel文档
      这是我生活经常用到的,其实更多的是csv格式的数据集,轻量级,体积小,便于处理和分析。

    数据处理

    我们拿到了食材,要考虑下这顿饭怎么做了?
    但是真的现在就要做了?你确定?我们肯定要洗菜,择菜,切菜等等步骤,这像极了我们的数据处理。

    • 文本处理
      主要包括一些正则表达式,自然语言处理等。
    • 量纲一致
      主要包括数据的归一化,标准化等。
    • 降维问题
      包括使用PCA进行降维操作等。

    数据处理是一个机器学习项目中耗时最多的一个节点,所以我要在这里好好地打好坚实的基础。

    建立模型

    现在我们要开始做菜了。
    我们要知道自己想使用哪种模型,是线性模型还是非线性模型,如何通过对业务的理解来选取特征向量(特征工程),这是这个节点最重要的一点。
    特征工程决定了模型所能达到的准确率上限,而不同模型只能无限接近于上限。

    模型评估

    我们做好了菜,是不是该吃了?
    当然不能,我们应该先自己尝一尝,当然也属于吃。我们要对自己的模型进行评估,也就是这道菜好不好吃。
    评估,我们由许许多多的标准,比如准确率(Accuracy),精确率(Precision),召回率(Recall),F1指标(分为宏观指标和微观指标)等等,我们要选择比较有说服力的指标进行评估。进而选择出最佳的模型及其参数。

    上线部署

    本节点由于暂时还没有机会领略,不作解释,留坑,日后自填。

    看起来,貌似很简单,做起来,其实还是要看自己。

    相关文章

      网友评论

        本文标题:ML难不难?(二)

        本文链接:https://www.haomeiwen.com/subject/svpwuttx.html