美文网首页
2018-07-31

2018-07-31

作者: 我喜欢过洋娃娃 | 来源:发表于2018-07-31 23:05 被阅读0次

考虑一个问题,其实是一个很久的问题...

训练的过程到底在做什么?

我自己的理解是:
(如果用规则,那对于一条样本,其实是一个特定的分类结果,那么也就无所谓训练的问题)
既然是训练,那么其实本身就是一个概率模型;
换句话说,对于特定的一个样本,model给出的结果是一个最大概率的结果。
所以我们才用大量的训练集数据去让模型学习,学习比如
正样本应该符合怎样的特征, 负样本应该符合怎样的特征
这些都是基于经验的,而这些经验则是训练数据给的。

所以说,训练数据越多,经验越丰富,模型的效果就会越好

如果训练一个分类器,那么测试or使用模型的时候,不是一条一条的去决策的吗,和分布有关系吗?

是一条一条去决策,但是如上文,对于特定的一个样本,model给出的结果是一个最大概率的结果。
如果模型会说话,在决策时,它可能会说,根据历史经验,这个样本在满足了这些特征的情况下,有60%的概率为正样本。
而这个模型就是在告诉我们,在历史经验(训练数据)中,满足了这些特征的所有样本中,有60%的是正样本。

训练集和测试集一定要同分布?

先不考虑训练集和测试集。
首先,model是为真实场景服务的。
所以一个经验正确的model, 训练集的分布应该和真实场景的分布相同
即:D(Reality scenario) \sim D(Training set) (用 D 表示 distribution)
那么测试集是为了衡量model的好坏的,所以测试集的分布也应该和真实场景同分布
即:D(Reality scenario) \sim D(Testing set)

这样一来,其实就是 D(Reality scenario) \sim D(Testing set)

相关文章

网友评论

      本文标题:2018-07-31

      本文链接:https://www.haomeiwen.com/subject/fbpkvftx.html