Building a Spam Classifier
01. 优先考虑做什么
- 使用邮件里面的单词,构成单词向量训练学习函数。
具体做法为:
- 收集大量数据
- 生成复杂的函数
- 训练算法来以不同的方式处理输入(比如处理单词拼写错误等)
02. 错误分析
- 通常解决机器学习算法的一般步骤:
- 以一个简单、不太完美的算法快速实现
- 画出学习函数曲线来判断是数据更多、特征更多还是其他问题
- 用交叉验证的方式人为的检测出训练误差是由什么原因造成的
处理偏斜类数据(skewed data)
01. 偏斜类的误差度量
- 当我们用于测试的样本数据有些极端,比如癌症数据占多数,使得实际不太准确的机器学习算法也有很高的准确率,这类数据叫做偏斜类数据。解决方法有测算:
- 精确率(Precision)-预测为正中的正确率
- 召回率(Recall)-预测结果中的正确率
Accuracy = (true positives + true negatives) / (total examples)
Precision = (true positives) / (true positives + false positives)
Recall = (true positives) / (true positives + false negatives)
02. 权衡准确率和召回率
-
当逻辑回归的临界值改变,准确率和召回率可能会相应改变。权衡最优有个公式:
网友评论