美文网首页机器学习基础
机器学习中的Train/Dev/Test集合数量设定

机器学习中的Train/Dev/Test集合数量设定

作者: rawliu_刘莹 | 来源:发表于2018-03-10 10:50 被阅读0次

    Train/Dev/Test集合设定

    现在,我们就来聊聊在机器学习中训练/开发/测试集合大小的设定。

    Train/Dev/Test

    TrainDevTest

    在机器学习的早期,由于数据量较少:

    我们将Train/Dev/Test的比例设定为60/20/20

    或者  Train/Test-->70/30

    现如今,我们可以获得大量的数据集, 数据量会超过百万(1,000,000)。因此,我们也就只需要选取少量的Test集合,即可校验算法的可靠性。

    因此,我们经常将训练集设定为:Train/Dev/Test的--->98/1/1

    当前,机器学习主要用到Train/Test训练集。


    机器学习的应用领域

    现如今ML(Machine Learing)机器学习已经在很多方面有了显著地突破,尤其再Deep Learning领域,突破更是一日千里。

    例如:NLP(自然语言处理),Computer Vision(机器视觉),语言翻译(Translation),结构化数据处理(Structure Data)。

    结构化数据处理(Structure Data):Ads(互联网广告),Search(搜索引擎),Computer Security(计算机安全),Logistical(物流)等领域有着很好的应用。

    我们有理由相信在不久的将来,机器学习将会应用到更为广阔的领域。


    想法-编码-验证阶段

    各位童鞋在学习ML(Machine Learning)时,都会经历这几个步骤:

    Idea: 创意和想法;对一个项目(事情)的想法和解决该方法的思路。

    Code: 编码;通过ML,进行编码。

    Experiment: 实验;通过实验时验证你的想法和思路。

    Idea-Code-Experiment

    Idea,Code,Experiment是一个循环的过程。开始于Idea,然后通过Code实现,在通过Experiment进行验证。之后再次优化你的想法,优化代码,再实验验证,一次一次的迭代,最终实现对问题的解决。


    名词解释:

    Dataset: 数据集。就是我们需要给算法提供的训练数据,常见的数据集包括:Training Dataset(训练集),Testing Dataset(测试集),Dev Dataset(开发集)。

    algorithm:算法。很简单,就是我们常说的机器学习中的算法。常见的有CNN,RNN,DNN等。

    相关文章

      网友评论

        本文标题:机器学习中的Train/Dev/Test集合数量设定

        本文链接:https://www.haomeiwen.com/subject/bsuvfftx.html