今天看了下论文Active Learning with Statistical Models,下面的内容都是来自于它。
题外话: 机器学习里面的learner是什么意思?当研究者说构建模型的时候,他们会把这个“machine”说成learner,当预测的时候,他们会说classifier/regressor。
主动学习是指学习器(learner)有能力选择或者影响选择它的训练数据。
问题描述:有训练数据集,learner能够迭代的选择新的输入,并且观察他的预测y*,满足条件,就将加入训练数据集。那么,怎么选择?
有很多思路:例如,我们可以选择我们还没有选过数据的地方,或者是lerner效果表现不好的地方,或者是置信度低的地方,或者是可以改变我们的模型的地方等等。
这篇文章讲的是怎么从统计学的角度来最优的选择。
- 统计方法是如何应用到神经网络的?
我们把输入对应的输出写作,它的均方误差(MSE)可以表示为学习器的偏移和方差之和。方差表示的是learner在估计x时的不稳定性。
我们的目标是选一个新的数据,预测,并将加入训练集,此时方差IV最小。
这儿就是就是指的分布,通常是已知的。可以用蒙特卡洛方法算出来。
选以及最小化需要计算。很多模型在已有的数据的基础上对作出估计,从而算出。
用最小化方差来选择为选择新的数据提供了坚实的统计基础。
- 两种替代方法:Mixtures of Gaussians ; Locally weighted regression。
2.1 高斯模型混合(Mixtures of Gaussians): 假设数据是由N个高斯模型 的混合模型产生的,我们可以用EM算法来找到数据最匹配的模型,然后用混合模型的条件期望就可以做函数估计。
对每个高斯模型,我们把预估的输入输出的平均值写作 和,预估的协方差写作, 和。给定下的条件方差可以写成:
我们将设为模型训练数据的个数。
对于一个输入,每个的条件期望 和方差可以写出:
我们想要用最小化来选择。给定条件下的估计分布可以写成下面的形式:
这样,就可以算出来了:我们分别对每个的变化建模,对从给定的新的数据计算出它的期望的方差,并且给出它的权重变化。新的期望组合起来就是learner的新的方差:
2.2 Locally weighted regression本地权重回归
这个方法暂时不是很感兴趣,就不说了。
网友评论