美文网首页
a08.Andrew-ML0602-偏斜类数据误差度量

a08.Andrew-ML0602-偏斜类数据误差度量

作者: Xylia_Yang | 来源:发表于2018-08-21 16:00 被阅读11次

    Building a Spam Classifier

    01. 优先考虑做什么


    • 使用邮件里面的单词,构成单词向量训练学习函数。
      具体做法为:
    1. 收集大量数据
    2. 生成复杂的函数
    3. 训练算法来以不同的方式处理输入(比如处理单词拼写错误等)

    02. 错误分析


    • 通常解决机器学习算法的一般步骤:
    1. 以一个简单、不太完美的算法快速实现
    2. 画出学习函数曲线来判断是数据更多、特征更多还是其他问题
    3. 用交叉验证的方式人为的检测出训练误差是由什么原因造成的

    处理偏斜类数据(skewed data)

    01. 偏斜类的误差度量


    • 当我们用于测试的样本数据有些极端,比如癌症数据占多数,使得实际不太准确的机器学习算法也有很高的准确率,这类数据叫做偏斜类数据。解决方法有测算:
    1. 精确率(Precision)-预测为正中的正确率
    2. 召回率(Recall)-预测结果中的正确率

    Accuracy = (true positives + true negatives) / (total examples)
    Precision = (true positives) / (true positives + false positives)
    Recall = (true positives) / (true positives + false negatives)

    02. 权衡准确率和召回率


    • 当逻辑回归的临界值改变,准确率和召回率可能会相应改变。权衡最优有个公式:


    相关文章

      网友评论

          本文标题:a08.Andrew-ML0602-偏斜类数据误差度量

          本文链接:https://www.haomeiwen.com/subject/gsififtx.html