机器学习-数据集

机器学习-数据集

作者: 浩宇Harry | 来源:发表于2018-07-09 16:59 被阅读0次

Python机器学习基础教程学习笔记（4）——KNN处理wave
机器学习高质量数据集大合辑
keras 数据集学习笔记 3/3
机器学习1（特征工程）
机器学习高质量数据集（附链接）
python机器学习入门-用鸢尾花data建立python机器学
python处理MNIST数据集
机器学习入门
数据集汇总
独立性假设与先验后验

对于机器学习，我们真正感兴趣的是泛化

通过inference，我们的模型可以很好地泛化到之前未出现的新数据
但是有一些细则
第一，我们要以独立且一致的方式从该分布抽取样本
我们不以任何主动方式产生偏差
第二，分布是平稳的，不随时间变化，分布在数据集内不会发生变化
第三，我们始终从同一个分布提取样本，不会突然开始从其他分布提取样本
有时会违背这样但假设，比如，一个包含一年零售信息的数据集，用户的购买行为会出现季节性变化，这会违反平稳性
这些都是在监督式机器学习中非常关键的假设

过拟合和欠拟合

过拟合
过拟合定义了就是一类现象，一个假设空间H，m和n都属于H，但是在训练集上m的损失低，m比n错误率小，在预测集上，n却比m错误率小，就说m过度拟合训练。
过拟合现象，在训练集上的表现几乎是完美的，损失函数低，但在预测集泛化方面却恰恰相反
原因，主要在于，模型的复杂度超出所需成都而造成的，否则过度和已训练样本本身特性贴合。机器学习的基本冲突是适当拟合我们的数据，但也要尽可能简单地拟合我们的数据

如何选择出训练集和测试集

一般而言我们需要对数据集，先随机化，再拆分数据，确保样本代表数据集整体特征
相对于训练集，测试集应该满足以下两个条件
规模足够大，可产生有统计意义的结果
能代表整个数据集，换言之，挑选的测试集的特征应该与训练集的特征相同
关于规模
训练集规模越大，模型的学习效果就越好
测试集规模越大，我们对于评估指标的信心越充足，置信区间就越狭窄
绝对不要对测试数据进行训练。
数据集规模很小，则可能需要执行诸如交叉验证之类较为复杂的操作

相关文章

Python机器学习基础教程学习笔记（4）——KNN处理wave
Python机器学习基础教程学习笔记（4）——KNN处理wave数据集（回归） 1 wave数据集 wave数据集...
机器学习高质量数据集大合辑
姓名：王咫毅学号：19021211150 【嵌牛导读】机器学习之中的数据集用处重大，在机器学习中，寻找数据集也是...
keras 数据集学习笔记 3/3
keras 数据集的学习笔记 3/3 深度学习需要有大量的数据集供机器来学习，本次就学习如何定义自己的数据集。各...
机器学习1（特征工程）
机器学习概述机器学习是从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测。数据集的组成机器学习的...
机器学习高质量数据集（附链接）
今天为大家推荐一份高质量的数据集，都是用于机器学习的开放数据集。在机器学习中，寻找数据集也是非常重要的一步。质量...
python机器学习入门-用鸢尾花data建立python机器学
机器学习步骤机器学习的步骤一般为加载数据集、分割数据集、训练模型、验证模型精度鸢尾花data建立python机...
python处理MNIST数据集
1. MNIST数据集 1.1 MNIST数据集获取 MNIST数据集是入门机器学习/模式识别的最经典数据集之一。...
机器学习入门
机器学习入门 1. 数据集一般来说，机器学习中用的数据集时来自文件，比较少来自数据库。在数据库中如MySQL容易...
数据集汇总
转载自机器之心，留存做备份从文本处理到自动驾驶：机器学习最常用的50大免费数据集机器学习领域里有哪些开放数据集...
独立性假设与先验后验
1.机器学习假设训练集样本独立同分布机器学习建立在当前获取到的历史数据 [训练集]，对未来数据进行预测、模拟。 ...

网友评论

本文标题：机器学习-数据集

本文链接：https://www.haomeiwen.com/subject/agfzuftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|机器学习-数据集|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！