构建机器学习项目2

作者: Simple_isBeauty | 来源:发表于2018-10-18 15:42 被阅读0次

机器学习数据集的获取和测试集的构建方法
构建机器学习项目2
特征工程(完）
特征工程之特征缩放&特征编码
特征工程之数据预处理(下)
常用机器学习算法汇总比较(完）
特征工程之数据预处理（上）
常用机器学习算法汇总比较(上）
简单聊聊模型的性能评估标准
常用机器学习算法汇总(中）

Error Analysis

Carrying out error andlysis

如果你想得到一个训练算法来做人类可以做的任务而且你所训练的算法还没有达到人类的效果你需要手动地检查算法中的错误来得到你下一步该做什么这个过程叫做错误分析

image.png

首先拿大约100张分类错误的验证集图片并进行手动检测只需要数一数看有多少张验证集中标错的样本实际上是狗的图片现在假设事实证明在验证集中分错的100张样本里有5%是狗的图片也就是说验证集中分错的100张中有5张是狗这意味着在这100张图片中特指你分错的这100张即使完全解决狗的问题也只在这100张中多分对了5张换言之若只有5%的错误是狗照片如果你在狗的问题上花了大量时间最好的情况也就是你的错误率从10%下降到9.5% 对吗这5%是错误里的相对下降值，因此是从10%下降到9.5% 那么你可能可以合理地判断出这样并不是最好的利用时间的方式也有可能是，但至少给了你一个上限通过处理狗的问题能提高多少准确率对吗？

在机器学习中有时我们把这称为表现上限意思是最好的情况是什么关注狗的问题能有多大的帮助

在错误分析中只看验证集里你的算法判断错误的样本

image.png

综上所述要进行错误分析，你应该找到一套在你验证集中错误标识的样本并按假阳性和假阴性来看并计算不同类别中的误判个数在此过程中可能会促使你提出新的错误类别就像我们看到的当你浏览样本的时候有很多Instagram滤镜或者Snapchat滤镜他们也搞乱了分类您可以在过程中创建新类别但通过对不同类中错误标识的例子计数通常这将有助于你判断优先级或给你新方向的灵感

Cleaning up incorrectly labeled data

监督式学习的问题中，数据由输入X和输出的标签Y组成如果检查数据集，你发现有些输出标签Y错了（也就是说）你的部分数据，有错误的标签你值得花费时间去修正这些标签吗？让我们一起看看这个问题

深度学习算法对随机错误很稳健，但它们（深度学习算法）对系统误差不那么稳健比如说，如果你的标记员一直把白色的狗标记为猫，那就会产生问题，因为你的分类器会学着把所有的白色的狗分类成猫但是随机错误，或者接近随机的错误通常对深度学习算法来说，不算太糟糕

image.png

对于开发集和测试集中的错误标记数据呢？一个比较推荐的做法是，在错误分析的过程中增加一列，去统计 Y的标签错误的数量，这个标记员漏掉了背景里的这只猫所以，在那里打个对勾，表示第98个例子的标签错了可能在这个例子里，这个图片实际上是一个画的猫，而不是真的猫可能你想要标记员标记成0，而不是1 所以在这里打个对勾就像你计算错误率（这些错误率）由其他类别导致的，可以计算一下由这些错误标签导致的错误率在你的开发集里，Y的值是错的这解释了为什么你的机器学习算法预测了一个和数据里标签不一致的结果所以，现在的问题是我们值得花费时间去纠正这6%的错误标记的例子吗？如果这些错误对你评估算法在开发集上的效果有很大的影响的话那就继续做吧，花时间去纠正这些错误标签但是如果没有太大影响对你用开发集去评估模型那你的时间最好不要花在这上面

image.png

Build your first system quickly, then iterate

image.png

Mismatched training and dev/test set

深度学习算法都希望有大量的训练数据要使它运转在最佳状态训练集中要有足量已标记训练数据这导致很多团队将能找到的任何数据都塞进训练集，只为有更多的训练数据即使有些甚至很多这种数据来自于与开发集和测试集不同的分布因此在深度学习时代，越来越多的团队正在使用的训练数据并非来自与开发集和测试集相同的分布

Training and testing on different distribution

通过估计学习算法的偏差和方差能帮你确定下一步工作的优先级但当你的训练集开发集测试集来自不同的分布时偏差和方差的分析方法也会相应变化接下来一起看看如何实现

image.png

Bias and Variance with mismatched data distributions

image.png

Addressing data mismatch

如果训练集的分布与你的开发集和测试集的分布不同并且如果误差分析表明出现了数据不匹配的问题你该怎么解决？

image.png

Learning from multiple tasks

Transfer learning

深度学习中最有力的方法之一，是有时你可以把在一个任务中神经网络学习到的东西，应用到另一个任务中去。比如，你可以让神经网络学习去识别物体，比如猫，然后用学习到的（一部分）知识来帮助你更好地识别X射线的结果。这就是所谓的迁移学习

你有几种方法来重新训练这个放射数据的神经网络。如果你只有一个小的放射数据集，你可以只重新训练最后一层的权值，就是WL 和PL，同时保留其它所有参数。如果你有足够的数据，你也可以重新训练神经网络的其余所有层。我们的经验就是如果你有一个小规模的数据集，那么就去重新训练最后一层和输出层的神经网络，或者你也可以训练最后一到两层的神经网络。但是如果你有大量的数据，你或许可以对这个神经网络的所有参数都进行重新训练。要是你对神经网络的所有参数进行重新训练，那么这样训练的初始化阶段有时候被我们叫做预训练（pre-training）原因是，你在是使用图像识别的数据来预初始化（pre-initialize）或者说预训练神经网络的权重。然后如果你在之后对所有的权重进行更新，那么在放射扫描的数据上的训练有时候被我们叫做微调（fine tuning) 所以有时候你会在深度学习领域听到预训练（pre-training）和微调（fine tuning）这些词，上面我所说的就是他们在迁移学习中表达的真正含义

image.png

那么迁移学习在什么时候有用呢当你在你的被迁移的模型中拥有大量的数据，而你在你需要解决的问题上拥有相对较少的数据时，迁移学习是适用的

image.png

Multi-task learning

迁移过程是有先后顺序的从任务A中学习,然后将其迁移到任务B。在多任务学习中,你（多个任务）一起开始尝试让一个神经网络同时做几件事然后,每个任务将会帮助完成其他任务

image.png

End-to-end deep learning

What is end-to-end deep learning

近期，深度学习最令人兴奋的进展之一是端到端深度学习的崛起那么，什么是“端到端“的深度学习呢？简单地说，我们有一些数据处理系统或者是由多个阶段组成的学习系统端到端的深度学习做的就是它可以捕获所有的阶段并且，通常可以将其替代为单个神经网络也就是说运行速度更快以语音识别为例其目标是接收输入音频片段X 将其转换为该音频剪辑对应的脚本输出Y。传统的语音识别分为多个处理阶段。首先，需要提取音频的一些特征，一些人工设计的音频特征。或许你听说过MFCC 这种算法（MFCC），用于提取一组特定的人工设计的音频特征。提取了低级特征之后，可以应用机器学习算法从音频剪辑中查找音素音素是声音的基本单位比如说，单词"cat"由三个音构成 Cu,Ah和Tu，算法会提取出这三个音素然后把音素串在一起，形成单词再将这些单词串在一起，构成音频剪辑的脚本。不同于上述由多个阶段组成的途径（管道）端到端的深度学习可以训练一个庞大的神经网络，只需输入音频片段，然后直接输出脚本

当你的数据集较小时，传统的管道方法实际上同样有效，有时甚至更好。你需要一个大的数据集以便端到端的方法真正突显其作用。如果你有中等量的数据，可以采用折衷的方法：输入音频，绕过这些特征，只学习输出神经网络的音素，然后继续其它阶段。因此这是端到端学习的一个步骤，不是彻底的端到端学习