本文人工翻自Kaggle
首先,我们将概述机器学习模型的工作原理和使用方法。如果你以前做过统计建模或机器学习,可能会觉得这很基础。别担心,我们很快就会开始构建强大的模型。
本课程将让你在以下场景中构建模型:
你的表弟通过投机房地产赚了几百万美元。因为你对数据科学感兴趣,他提出要和你成为生意伙伴。他提供资金,你提供预测各种房屋价值的模型。
你问表弟过去是如何预测房地产价值的,他说这只是直觉。但多问几句就会发现,他从过去看过的房子中找出了价格模式,并利用这些模式对他正在考虑的新房子进行预测。
机器学习也是如此。我们先从决策树模型开始。还有更高级的模型可以提供更准确的预测。但是决策树很容易理解,它是数据科学中一些最佳模型的基本构件。
为了简单起见,我们将从最简单的决策树开始。
第一种决策树
它只将房屋分为两类。任何考虑中的房屋的预测价格都是同类房屋的历史平均价格。
我们利用数据来决定如何将房屋分成两组,然后再确定每组的预测价格。从数据中捕捉模式的这一步骤称为拟合或训练模型。用于拟合模型的数据称为训练数据。
如何拟合模型的细节(如如何分割数据)非常复杂,我们将留待以后讨论。拟合模型后,您可以将其应用于新数据,以预测更多房屋的价格。
改进决策树
拟合房地产训练数据后,更有可能产生以下两种决策树中的哪一种?
第一种决策树
左边的决策树(决策树 1)可能更有意义,因为它抓住了卧室多的房子往往比卧室少的房子售价高这一现实。这个模型最大的缺点是没有捕捉到影响房价的大多数因素,如浴室数量、地块大小、位置等。
使用 "分裂"更多的树可以捕捉到更多的因素。这些树被称为 "深度 "树。一棵同时考虑了每栋房屋地块总面积的决策树可能是这样的:
您可以通过追踪决策树来预测任何房屋的价格,并始终选择与该房屋特征相对应的路径。房屋的预测价格位于树的底部。我们做出预测的底部点称为树叶。
树叶上的分叉和数值将由数据决定,所以现在是时候检查一下你将要使用的数据了。
网友评论