美文网首页
20170928随手

20170928随手

作者: bce07744e651 | 来源:发表于2017-09-28 22:10 被阅读0次

机器学习导论chap 1

20170928随手

问题空间A

样本空间S(training_set,testing_set,valid_set)=attributes+label

样本数量N

使用training_set中的数据构造分类器(函数),再使用生成的分类器对testing_set中的数据进行分类,将分类结果与label比较,对分类器效果进行评价。

关于cross-validation,可以分为三种:

#1 simple cross-validation:一般将样本数据分为70%:30%。多的作为training_set,少的作为valid_set。(这里的valid_set我认为就是testing_set)

#2 k-fold cross-validation:将样本分为k等份,每次拿一份出来作valid_set,其余作为training_set,计算valid_set中预测结果和实际结果间的PRESS(predicted error sum of squares)(一般情况做10次10折交叉验证)

#3 留一(LOOCV):仅留下样本中的一条数据作为valid_set(类似于k=N)(可用于kernel regression,Tikhonov regularization)

在构造分类器时应该尽量满足所有training_set中的样本条件(95%以上)。实际上100%符合training_set的分类器(分类器空间是相当大的,如何在其中进行选择非常重要)有很多,但一般会有最优化的控制条件(模型复杂度等),并且由training_set构造的classifier并不一定能很好的分类testing_set或者valid_set(因为它们只总结了training_set中sample的特点)。

关于classifier的效果评价,可以使用准确率Accuracy=testing_set样本中判断正确的数量/testing_set样本总数

除此之外,显示数据还存在许多问题:不相关属性,冗余属性,缺失属性,噪声(系统噪声,人为噪声),?。

真正目的是要将我们得到的classifier进行应用,对A中的其他数据进行判断。(input为新数据的attributes,output为新数据的label)并且有时候会需要解释所得到的classifier中隐含的知识。

相关文章

  • 20170928随手

    机器学习导论chap 1 问题空间A 样本空间S(training_set,testing_set,valid_s...

  • 2017-09-28

    20170928 太原 晴

  • 孟宪民|007|1170

    1170|20170928 意外邂逅的美人 -----桲...

  • 电影

    20170928喜欢你20171016缝纫机乐队

  • 20170928

    这几天亲爱的感冒了 他难受还得比平日里增加更大的工作量、赶上假日前忙的却不能请假休息。我心疼。 马上我要下班了,我...

  • 20170928

    今天正式成为肤歌青岛总代! 也正式成为大童保险代理人! 双喜临门!感恩引领我的朋友们! 真是值得喝彩的一天! 一切...

  • 20170928

    电话里,母亲说,父亲做好饭来接她,快到家了,准备吃饭了。 父辈的婚姻,风风雨雨,这么多年。看着,走着,恐惧、逃避,...

  • 20170928

    今天,终于知道,你连维系我们关系的那个QQ都不开了。 原来,你对我竟然决绝到这样的地步!

  • 20170928

    走回来的时候抬头看见了云,不知道和天快亮但还没什么预兆的时间是不是有关系,但我总觉得是第一次在天黑的时候看到这么多...

  • 20170928

    时间管理 原定计划 monitor最终版讨论国电,包商问题战略作业ppt 今天很累,从上午的毫无思路,到发现mon...

网友评论

      本文标题:20170928随手

      本文链接:https://www.haomeiwen.com/subject/ozzvextx.html