美文网首页
data mining-评估学习结果

data mining-评估学习结果

作者: crishawy | 来源:发表于2018-09-24 21:56 被阅读0次

评估是数据挖掘能否取得真正进展的关键一环。

训练和测试

对于分类问题,自然采用误差率来衡量一个分类器的性能,为了能预测一个分类器在新数据上的性能表现,需要一组没有参与训练的单独数据,并在次数据集上评估分类器的误差率,这组数据集叫做测试集。
注:测试数据不能以任何方式参与分类器的构建

预测性能-置信区间

对于一个抛硬币问题,抛100次正面有75次和抛1000次正面有750次,如何衡量正确率p。这个问题答案通常被表达为一个置信区间,即真实正确率p以某个特定的置信度存在于某个特定的区间中。如在置信度为80%左右,抛100次的正确率正在69.1%和80.1%之间,抛1000次正确率在73.2%和76.7%之间,由此课件抛1000次更有效。
对于置信区间的具体计算方法见概率论

交叉验证(重要)

现考虑当训练和测试数据数量有限时该如何处理。采用旁置法可解决一部分问题(旁置的数据用来测试,其他用于训练),但旁置的数据具有随机性,有时并不显著,所以普遍使用
重复旁置法:每次迭代时,随机抽取一个特定比例的数据进行训练,剩余的用于测试,将每次不同迭代过程中所得的误差率求平均得到综合误差率。
此外,旁置所选数据有时显著性不大,所以采用分层旁置,即将数据分层化,每次旁置从不同层次抽取一定量数据,可以提高数据间的显著性差异。结合上述两个方法可以得到分层交叉验证方法
交叉验证:首先要决定一个固定的折数,这是决定数据分的份数,如3折即将数据分成3等分,每一等分重复作为测试集,其他作为训练集,最后计算综合误差率。
10折分层交叉验证:这是普遍所采用的误差估计方法。

相关文章

  • data mining-评估学习结果

    评估是数据挖掘能否取得真正进展的关键一环。 训练和测试 对于分类问题,自然采用误差率来衡量一个分类器的性能,为了能...

  • data mining-基于实例的学习

    在基于实例的学习中,训练样本被完全保存起来,并且使用距离函数带来判定训练集中的哪个实例与一个未知的测试实例最近。 ...

  • data mining-概念、实例和属性

    对于机器学习方案如何运作,主要包括输入、输出、算法、以及评价。本文主要介绍机器学习方案的输入等概念。 概念 一个具...

  • data mining-输出:知识的表达

    机器学习方法的基本知识表达形式是以决策树或者规则来展现,知识是用来描绘由机器学习方法产生的结构。 表 采用与输入方...

  • data mining-基础算法-简单概率算法

    朴素贝叶斯方法 理解:使用先验概率来进行推演后验概率进而进行预测分类。 注意点: 只有当各个属性独立时,才可以使用...

  • E先站第19天-日期函数

    回顾目标: 001学习日期函数year,month,datedif 002录制视频 评估结果: 001学习日期函数...

  • 如何评估结果

    如何评估结果 董晓闲 摘要:做的好不好,你知道该怎么评价吗 在前一篇文章中,晓闲讲解了检视行动这一步骤的方法,而在...

  • 吴恩达机器学习笔记-应用机器学习的建议

    评估假设 我们之前已经学习过一些机器学习的算法,现在我们来谈谈如何评估算法学习得到的假设。当发现预测的结果和实际的...

  • E站第15天-求和函数sum

    回顾目标: 001学习求和函数SUM 并输出 002学习录制视频 评估结果: 001学习并练习操作求和函数SUM。...

  • 课堂评估:作为有效教学的重要组成部分 笔记

    课堂教学评估被视作了解学生学习情况的重要手段,通过课堂评估的结果,教师可以及时根据学生的学习状况调整和改进教学。如...

网友评论

      本文标题:data mining-评估学习结果

      本文链接:https://www.haomeiwen.com/subject/rfbhoftx.html