美文网首页
为什么机器学习训练时总是要求样本是独立同分布?

为什么机器学习训练时总是要求样本是独立同分布?

作者: SeekerLinJunYu | 来源:发表于2019-04-15 19:06 被阅读0次
背景介绍

 首先,机器学习当中也不总是要求数据的采集是符合独立同分布要求的(比如一些在线学习).
 其次,对数据的要求是由机器学习模型的用途所决定的.通常情况下,训练一个机器学习模型就是用来对其他的未知数据(如test_data)进行一个预测或者拟合.在这种情况下,就格外严格地要求train_data 和test_data是满足独立同分布的.


什么叫做独立同分布?

 独立同分布即指变量均服从同一种分布,并且变量之间是相互独立的(在多数情况下其实是不满足的,但往往选择忽略并不紧密的联系).例如随机变量X1和X2,两个变量独立即指X1的出现并不影响X2,反之X2的出现并不影响X1,并且X1和X2所在的样本集具有相同的分布形状和分布参数,对离散随机变量具有相同的分布律,对连续随机变量则有相同的概率密度函数,有着相同的分布函数,相同的期望和方差.


那么为什么需要独立同分布这一先决条件呢?

 如前文所述,机器学习模型是根据已有数据train_data训练所得,我们希望模型能够学习到数据中的绝大部分的信息,从而能够很好地对未知的数据做出最准确的预测和判断.那么从概率统计的背景上来讲,就是要求train_data和test_data一定要满足相互独立且具有相同分布.只有这样,模型在train_data中学到的信息才能够很好地在test_data中发挥有效的作用.
 倘若不满足这一条件,将无法有效使用交叉验证等模型验证技术,同时也无法保障模型的训练效果.

相关文章

  • 为什么机器学习训练时总是要求样本是独立同分布?

    背景介绍  首先,机器学习当中也不总是要求数据的采集是符合独立同分布要求的(比如一些在线学习). 其次,对数据的要...

  • 深度学习Batch Normalization作用与原理

    机器学习领域有个重要假设:IID独立同分布假设 假设训练数据和测试数据是满足相同分布 独立同分布假设是通过训练集得...

  • 独立性假设 与 先验后验

    1.机器学习假设训练集样本独立同分布 机器学习建立在当前获取到的历史数据 [训练集],对未来数据进行预测、模拟。 ...

  • Batch Normalization

    机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获...

  • Batch Normlization

    一、引言 机器学习领域有个很重要的假设:IID 独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通...

  • 是时候放弃tensorflow集群投入horovod的怀抱

    当数据较多或者模型较大时,为提高机器学习模型训练效率,一般采用多GPU的分布式训练。 按照并行方式,分布式训练一般...

  • 机器学习笔记第一章

    机器学习笔记 第1章 Basics 独立同分布(Independent and identically distr...

  • 使用crontab调度hadoop任务和机器学习任务的正确姿势

    标签: crontab 调度 虽然现在越来越多的开源机器学习工具支持分布式训练,但分布式机器学习平台的搭建和运维的...

  • 理解过拟合

    导言在进行有监督的机器学习建模时,一般假设数据独立同分布(i.i.d,independently and iden...

  • 分布式训练的通讯原语

    针对分布式训练服务器的集群进行架构设计,是为了更好地解决机器学习中分布式训练中的通讯问题。目前机器学习中主要由两种...

网友评论

      本文标题:为什么机器学习训练时总是要求样本是独立同分布?

      本文链接:https://www.haomeiwen.com/subject/jlupwqtx.html