47~52节
端到端学习要求学习算法直接从输入得到期望的输入。而流水线的模式需要人工设计学习组件,并考虑如何连接这些组件。
相比于人工参与的流水线模型学习系统,端到端的学习,不会受人工设计导致的信息简化的影响。在训练集很大,学习算法是一个足够大的神经网络时,能够达到更好的效果。
但对于小训练集,人工设计知识往往能补充训练集的不足,反而比端到端的方法更好。
在选择端到端或流水线模式时,要考虑数据可用性和任务简单性。有时流水线模式,可以容易地获得所需的数据集,并将复杂任务分解为简单的子任务,更有效地进行学习。这时,选择流水线模式可能更合适。
但通过端到端深度学习有时可以学习比分类更为复杂的输出。例如对输入的描述性输出。
53~57节
使用流水线模式时,要想提高系统性能,可通过将误差归因于流水线的组件,来决定优化工作的优先级。
这种优化目标的确定,与44节所介绍的优化验证测试类似,都是通过误差分析,找出导致错误的设计(环节)。
误差归因的一般思路为:
人为修改上游组件输出为“完美”输出,并在此输出上运行下游组件。如果得到正确输出,则下游组件没有问题。可将误差归因于上游组件。
否则可归因于下游组件。
通过对各组件进行优化,保证了每个组件都有很好的表现后,系统总体上却表现不佳,那么就说明流水线本身存在缺陷,需要重新设计。
网友评论