机器学习入门-模型如何工作

作者: 独人 | 来源:发表于2023-09-04 00:29 被阅读0次

本文人工翻自Kaggle

首先，我们将概述机器学习模型的工作原理和使用方法。如果你以前做过统计建模或机器学习，可能会觉得这很基础。别担心，我们很快就会开始构建强大的模型。

本课程将让你在以下场景中构建模型：

你的表弟通过投机房地产赚了几百万美元。因为你对数据科学感兴趣，他提出要和你成为生意伙伴。他提供资金，你提供预测各种房屋价值的模型。

你问表弟过去是如何预测房地产价值的，他说这只是直觉。但多问几句就会发现，他从过去看过的房子中找出了价格模式，并利用这些模式对他正在考虑的新房子进行预测。

机器学习也是如此。我们先从决策树模型开始。还有更高级的模型可以提供更准确的预测。但是决策树很容易理解，它是数据科学中一些最佳模型的基本构件。

为了简单起见，我们将从最简单的决策树开始。

第一种决策树

它只将房屋分为两类。任何考虑中的房屋的预测价格都是同类房屋的历史平均价格。

我们利用数据来决定如何将房屋分成两组，然后再确定每组的预测价格。从数据中捕捉模式的这一步骤称为拟合或训练模型。用于拟合模型的数据称为训练数据。

如何拟合模型的细节（如如何分割数据）非常复杂，我们将留待以后讨论。拟合模型后，您可以将其应用于新数据，以预测更多房屋的价格。

改进决策树

拟合房地产训练数据后，更有可能产生以下两种决策树中的哪一种？

第一种决策树

左边的决策树（决策树 1）可能更有意义，因为它抓住了卧室多的房子往往比卧室少的房子售价高这一现实。这个模型最大的缺点是没有捕捉到影响房价的大多数因素，如浴室数量、地块大小、位置等。

使用 "分裂"更多的树可以捕捉到更多的因素。这些树被称为 "深度 "树。一棵同时考虑了每栋房屋地块总面积的决策树可能是这样的：

您可以通过追踪决策树来预测任何房屋的价格，并始终选择与该房屋特征相对应的路径。房屋的预测价格位于树的底部。我们做出预测的底部点称为树叶。

树叶上的分叉和数值将由数据决定，所以现在是时候检查一下你将要使用的数据了。

网友评论

本文标题：机器学习入门-模型如何工作

本文链接：https://www.haomeiwen.com/subject/yimqvdtx.html

机器学习入门-模型如何工作