背景介绍
首先,机器学习当中也不总是要求数据的采集是符合独立同分布要求的(比如一些在线学习).
其次,对数据的要求是由机器学习模型的用途所决定的.通常情况下,训练一个机器学习模型就是用来对其他的未知数据(如test_data)进行一个预测或者拟合.在这种情况下,就格外严格地要求train_data 和test_data是满足独立同分布的.
什么叫做独立同分布?
独立同分布即指变量均服从同一种分布,并且变量之间是相互独立的(在多数情况下其实是不满足的,但往往选择忽略并不紧密的联系).例如随机变量X1和X2,两个变量独立即指X1的出现并不影响X2,反之X2的出现并不影响X1,并且X1和X2所在的样本集具有相同的分布形状和分布参数,对离散随机变量具有相同的分布律,对连续随机变量则有相同的概率密度函数,有着相同的分布函数,相同的期望和方差.
那么为什么需要独立同分布这一先决条件呢?
如前文所述,机器学习模型是根据已有数据train_data训练所得,我们希望模型能够学习到数据中的绝大部分的信息,从而能够很好地对未知的数据做出最准确的预测和判断.那么从概率统计的背景上来讲,就是要求train_data和test_data一定要满足相互独立且具有相同分布.只有这样,模型在train_data中学到的信息才能够很好地在test_data中发挥有效的作用.
倘若不满足这一条件,将无法有效使用交叉验证等模型验证技术,同时也无法保障模型的训练效果.
网友评论