一、模型选择
![](https://img.haomeiwen.com/i8016875/8cead12c3e252592.png)
如何选择?
- 视觉上 NO
不是所有资料都能可视化;人脑模型复杂度也得算上。 - 通过
NO
容易过拟合,泛化能力差。 - 通过
NO
能保证好的泛化,不过往往没法提前获得测试资料。
![](https://img.haomeiwen.com/i8016875/38bef4e570d95fe4.png)
折中:将样本资料分为两部分。一部分用作训练,一部分用作验证。
![](https://img.haomeiwen.com/i8016875/da6ee86155df491c.png)
二、验证
![](https://img.haomeiwen.com/i8016875/a03c5b29e8a55913.png)
基于验证集的模型选择:
- 利用所有训练数据训练所有模型,得出各个模型下的最优假设;
- 计算验证数据在各个模型最优假设下的代价值,选择最小代价值的模型;
- 利用全部样本数据训练选出来的模型,得到最优假设。
![](https://img.haomeiwen.com/i8016875/4cca49f54e3af0c5.png)
![](https://img.haomeiwen.com/i8016875/91387abbbcc7c1ea.png)
如何选择?
通常,取样本总数的1/5。
![](https://img.haomeiwen.com/i8016875/47faa250aadb64d9.png)
注意:validation不见得比较慢(训练数据变少了)。
三、留一交叉验证
![](https://img.haomeiwen.com/i8016875/c1541e717c1e59b6.png)
![](https://img.haomeiwen.com/i8016875/dd77cf70a2155e32.png)
![](https://img.haomeiwen.com/i8016875/c520e99ac149173c.png)
四、V折交叉验证
留一交叉验证速度慢以及存在不稳定性,实际中通常不怎么用。
将留一中的一个变为一份 ------> V折交叉验证。
V常取5或10。
![](https://img.haomeiwen.com/i8016875/c4dd310a4b23f1b0.png)
![](https://img.haomeiwen.com/i8016875/ebcec57070861775.png)
![](https://img.haomeiwen.com/i8016875/751de70d312cf135.png)
网友评论