a08.Andrew-ML0602-偏斜类数据误差度量

作者: Xylia_Yang | 来源:发表于2018-08-21 16:00 被阅读11次

a08.Andrew-ML0602-偏斜类数据误差度量
偏斜类的误差度量（Error metrics for skewe
机器学习系统设计（二）
权衡查准率和查全率（Trading off precision
Spark Core源码精读计划#13：度量系统MetricsS
在Power Pivot中表示数据偏度的写法
偏度峰度与显著性
2018-12-28偏斜类
偏斜
衡量风险的三个量化测度2：偏度

Building a Spam Classifier

01. 优先考虑做什么

使用邮件里面的单词，构成单词向量训练学习函数。
具体做法为：

收集大量数据
生成复杂的函数
训练算法来以不同的方式处理输入（比如处理单词拼写错误等）

02. 错误分析

通常解决机器学习算法的一般步骤：

以一个简单、不太完美的算法快速实现
画出学习函数曲线来判断是数据更多、特征更多还是其他问题
用交叉验证的方式人为的检测出训练误差是由什么原因造成的

处理偏斜类数据(skewed data)

01. 偏斜类的误差度量

当我们用于测试的样本数据有些极端，比如癌症数据占多数，使得实际不太准确的机器学习算法也有很高的准确率，这类数据叫做偏斜类数据。解决方法有测算：

精确率（Precision）-预测为正中的正确率
召回率（Recall）-预测结果中的正确率

Accuracy = (true positives + true negatives) / (total examples)
Precision = (true positives) / (true positives + false positives)
Recall = (true positives) / (true positives + false negatives)

02. 权衡准确率和召回率

当逻辑回归的临界值改变，准确率和召回率可能会相应改变。权衡最优有个公式：

网友评论

本文标题：a08.Andrew-ML0602-偏斜类数据误差度量

本文链接：https://www.haomeiwen.com/subject/gsififtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

a08.Andrew-ML0602-偏斜类数据误差度量

Building a Spam Classifier

01. 优先考虑做什么

02. 错误分析

处理偏斜类数据(skewed data)

01. 偏斜类的误差度量

02. 权衡准确率和召回率

相关文章

a08.Andrew-ML0602-偏斜类数据误差度量

偏斜类的误差度量（Error metrics for skewe

机器学习系统设计（二）

权衡查准率和查全率（Trading off precision

Spark Core源码精读计划#13：度量系统MetricsS

在Power Pivot中表示数据偏度的写法

偏度峰度与显著性

2018-12-28偏斜类

偏斜

衡量风险的三个量化测度2：偏度

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读