美文网首页
机器学习基本概念

机器学习基本概念

作者: sarashang | 来源:发表于2022-05-31 16:43 被阅读0次

基本概念

  1. 科学推理手段
    归纳:特殊到一般
    演绎:一般到特殊
  2. 监督学习与无监督学习
    监督学习:有明确的答案。分类包括二分类和多分类。二分类就是正负;多分类要选择哪一种特征种类。
    分类离散,回归连续。
    无监督学习:没有明确的答案。聚类(cluster)
  3. 预测
    测试样本
    泛化能力:可预测的范围。

模型评估与选择

1.一种训练集一种算法

1.1 经验误差与过拟合

  • error rate :E = a/m(m是样本数量,a是错误数量)
  • accuracy 精度:1 - E
  • error 误差:[Y - Y']

1.2 评估方法(训练集验证集与测试集)(如何获得测试结果?)

  • 泛化能力:模型对没有见过的数据的预测能力。

  • 一般把数据分成三份:训练集(60%),验证集(20%),测试集(20%)。
    用训练集训练出模型,然后用验证集验证模型,根据情况不断调整模型,选出其中最好的模型,记录最好的模型的各项选择,然后据此再用(训练集+验证集)数据训练出一个新模型,作为最终的模型,最后用测试集评估最终的模型。

  • training set 训练集

  • testing set 测试集
    测试集的保留方法:
    1)留出法:三七分 or 二八分;注意训练集和测试集同分布;多次随机划分,训练出多个模型,最后取平均值(平均值指什么?)
    2)K折交叉验证法:常用,数据分几份,分别进行测试,取测试结果的平均值。

  • 每个样本点只有一次被划入训练集或测试集的机会。

  • 适合小样本,数据量小的情况。大数据算力大。


    K折交叉验证图.png

3)自助法

  • validation set 验证集:验证集为了调参。
    比如,三个参数,每个参数有5个候选值,那么对一个测试集or 训练集就有5^3 = 125个模型。
    流程:训练集训练,验证机看结果,调参,再验证集看结果,调完参数,再在测试集上看结果。

1.3 性能度量 (如何评估性能优劣?)

1.3.1 错误率与精度
1.3.2 查准率、查全率与F1
1.3.3 代价敏感错误率与代价曲线

2. 一种训练集多种算法

2.1 P-R图像
查全率(Recall)
查准率(Precision)
2.2 ROC与AUC


ROC曲线与AUC示意图.png

3. 多种训练集一种算法

3.1 代价敏感错误率与代价曲线

image.png

代价曲线:非均等代价下,直接反映出学习器的期望总体代价。


正例代价概率.png

3.2 偏差与方差

4. 测试集上的性能多大程度可保证真实性能 (如何判断实质差别? )

4.1 比较检验

  • 测试集上的性能与真正的泛化性能未必相同
  • 测试机不同反映出来的性能不同
  • 机器学习算法本身有一定的随机性,同一个测试集上多次运行,可能会有不同的结果
  • 假设检验

4.1.1 一个测试集一种算法

4.1.2

参考资料:

  1. k折交叉验证_tianguiyuyu的博客-CSDN博客_k折交叉验证
  2. 训练集,验证集,测试集(以及为什么要使用验证集?)(Training Set, Validation Set, Test Set) - HuZihu - 博客园 (cnblogs.com)
  3. 查全率(Recall),查准率(Precision),灵敏性(Sensitivity),特异性(Specificity),F1,PR曲线,ROC,AUC的应用场景 - HuZihu - 博客园 (cnblogs.com)
  4. 分类模型的性能评价指标(Classification Model Performance Evaluation Metric) - HuZihu - 博客园 (cnblogs.com)
  5. 代价敏感错误率与代价曲线lg23:59的博客-CSDN博客代价敏感错误率与代价曲线
  6. 机器学习(周志华)第2.3.4节中,代价曲线的理解? - 知乎 (zhihu.com)
  7. 模型评估与选择(后篇)-代价曲线青雲-吾道乐途的博客-CSDN博客代价曲线
  8. Paper: Cost curves: An improved method for visualizing classifier performance

相关文章

  • 机器学习概述与算法介绍(二)

    机器学习概述 机器学习基本概念 机器学习基本流程与工作环节 机器学习中的评估指标 机器学习算法一览 3. 机器学习...

  • 不败给名词! 了解特征工程

    机器学习 基本概念:人工智能 > 机器学习 > 深度学习机器学习:机器学习是从数据中自动分析获得规律(模型), 并...

  • 机器学习综述

    文章主要分为:一、机器学习基本概念;二、机器学习发展历程;三、机器学习分类;四、机器学习的应用实例;五、结语。 一...

  • 机器学习算法之 k-means 聚类算法

    1. 机器学习基本概念 1.1 什么是机器学习 机器学习(Machine Learning)是一种基本数据的学习,...

  • 2.machine_learning_concepts

    1 机器学习概述-from周志华《机器学习》 1.1 机器学习基本概念 机器学习是目前信息技术中最激动人心的方向之...

  • 3.machine_learning_eval_metric

    机器学习评估与度量指标 -from周志华《机器学习》 1.1机器学习基本概念 这里的内容主要包括:性能度量、比较检...

  • 2019-05-14 2. 使用 scikit-learn 的

    掌握机器学习的基本概念及流程python机器学习库scikit-learnkNN分类算法基础

  • 机器学习入门系列(2)--如何构建一个完整的机器学习项目(一)

    上一篇机器学习入门系列(1)--机器学习概览简单介绍了机器学习的一些基本概念,包括定义、优缺点、机器学习任务的划分...

  • 机器学习笔记(1)

    机器学习笔记(1) 参考书:周志华《机器学习》 第1章 绪论 Part1 基本概念 1.机器学习的研究内容:如何从...

  • 《深入浅出GNN》Notes_2

    Unit2 神经网络基础 2.1 机器学习基本概念 机器学习的分类 根据训练数据是否有标签,机器学习可以分为监督学...

网友评论

      本文标题:机器学习基本概念

      本文链接:https://www.haomeiwen.com/subject/eruzprtx.html