美文网首页
11.机器学习系统设计(system design)

11.机器学习系统设计(system design)

作者: justinwei | 来源:发表于2019-03-20 18:44 被阅读0次

    第六周 Lecture 11

    1. 推荐方法
    • 尽快使用一种方法实现,使用验证测试算法;
    • 打印出学习曲线来决定是否要更多的训练数据;
    • 误差分析:使用验证测试手工检查算法错在哪里(是欠拟合还是过拟合)
    1. 不对称性分类的误差评估
      偏斜分类(skewed class):指 positive(y=1)对比negative(y=0)特别小
      例如:y=1是得癌症的样本 y=0是正常的。
    真实分类(actual class) 1 真实分类0
    预测分类(predicted)1 True Positive False Positive
    预测分类0 False negative True negative

    精确度(Precision)=\frac{Ture\ positives}{predicted\ positives } = \frac{Ture\ positives}{Ture\ positives + False\ positives}
    召回率(Recall)=\frac{Ture\ positives}{predicted\ positives } = \frac{Ture\ positives}{Ture\ positives + False\ positives}

    1. 精确度和召回率的权衡(trading off precision and recall)
    • 对于逻辑回归(logistic regression)
      predict 1 if h_\theta(x) > 0.5
      predict 0 if h_\theta(x) < 0.5
      predict 1 if h_\theta(x) > threshold

    • threshold值大于0.5,更高的精确度,更低的召回率

    • threshold值越低(小于0.5),更低的精确度,更高的召回率

    image.png

    F1\ Score = 2\ \frac{P\ R}{P + R}
    P: Precision(精确度)
    R:Recall (召回率)
    如果确定threshold?尽可能让F1 score值更大

    1. 机器学习的数据(Data for machine learning)
    • 更多的数据可以抵消算法的差异。
      "it's not who has the best algorithm that wins it's who has the most data"
    • 大数据应用的场景
      特别多参数据(例如 逻辑回归/线性回归有特别多个特性,或神经网络有很多的隐藏层)

    相关文章

      网友评论

          本文标题:11.机器学习系统设计(system design)

          本文链接:https://www.haomeiwen.com/subject/rpmtvqtx.html