美文网首页
a08.Andrew-ML0602-偏斜类数据误差度量

a08.Andrew-ML0602-偏斜类数据误差度量

作者: Xylia_Yang | 来源:发表于2018-08-21 16:00 被阅读11次

Building a Spam Classifier

01. 优先考虑做什么


  • 使用邮件里面的单词,构成单词向量训练学习函数。
    具体做法为:
  1. 收集大量数据
  2. 生成复杂的函数
  3. 训练算法来以不同的方式处理输入(比如处理单词拼写错误等)

02. 错误分析


  • 通常解决机器学习算法的一般步骤:
  1. 以一个简单、不太完美的算法快速实现
  2. 画出学习函数曲线来判断是数据更多、特征更多还是其他问题
  3. 用交叉验证的方式人为的检测出训练误差是由什么原因造成的

处理偏斜类数据(skewed data)

01. 偏斜类的误差度量


  • 当我们用于测试的样本数据有些极端,比如癌症数据占多数,使得实际不太准确的机器学习算法也有很高的准确率,这类数据叫做偏斜类数据。解决方法有测算:
  1. 精确率(Precision)-预测为正中的正确率
  2. 召回率(Recall)-预测结果中的正确率

Accuracy = (true positives + true negatives) / (total examples)
Precision = (true positives) / (true positives + false positives)
Recall = (true positives) / (true positives + false negatives)

02. 权衡准确率和召回率


  • 当逻辑回归的临界值改变,准确率和召回率可能会相应改变。权衡最优有个公式:


相关文章

  • a08.Andrew-ML0602-偏斜类数据误差度量

    Building a Spam Classifier 01. 优先考虑做什么 使用邮件里面的单词,构成单词向量训练...

  • 偏斜类的误差度量(Error metrics for skewe

    假设我们的只有1%的错误率。实际上这些病人中得癌症的人只有0.5%。现在有一种算法一直预计0,那么它的错误率只有0...

  • 机器学习系统设计(二)

    偏斜类的误差度量 以预测肿瘤是否为恶性为例,我们使用逻辑回归模型,其假设函数hθ(x),当y = 1时,我们可以预...

  • 权衡查准率和查全率(Trading off precision

    查准率和查全率是衡量偏斜类问题的评估度量,它们往往是一对矛盾的值,如何权衡它们,具体情况具体分析。 对于癌症问题,...

  • Spark Core源码精读计划#13:度量系统MetricsS

    目录 前言 度量系统MetricsSystem类实例化类中的属性成员注册度量来源注册度量目的地 度量配置Metri...

  • 在Power Pivot中表示数据偏度的写法

    在Power Pivot中表示数据偏度的写法 偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计...

  • 偏度峰度与显著性

    偏度 用于衡量数据分布的相对中心偏斜程度的度量.可以用Python写代码绘图. 峰度 用于表示数据分布陡峭与平缓的...

  • 2018-12-28偏斜类

    癌症分类问题 存在一种极端的例子:有一行代码不是机器学习代码,它忽略了输入值X,它让y总是等于0。 因此它总是预测...

  • 偏斜

    生命的偏斜 仿佛是有痕迹的因果 但这偏斜 偏偏伤害了无辜的他人 于是,更多的偏斜 一起愤怒了 愤怒着叫嚣 整个世界...

  • 衡量风险的三个量化测度2:偏度

    “偏度”,就是衡量风险方向。 偏度是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度亦称...

网友评论

      本文标题:a08.Andrew-ML0602-偏斜类数据误差度量

      本文链接:https://www.haomeiwen.com/subject/gsififtx.html