2020台大李宏毅机器学习作业一——回归（案例学习）

2020台大李宏毅机器学习作业一——回归（案例学习）

作者: ebook_sea | 来源:发表于2020-03-24 16:39 被阅读0次

[机器学习入门]李宏毅机器学习笔记-2（Regression：C
李宏毅老师机器学习课程笔记_ML Lecture 3-1: Gr
2020台大李宏毅机器学习作业一——回归（案例学习）
线性回归（1）
深度学习资料整合
《李宏毅 - 深度学习》笔记
机器学习（李宏毅）作业1-利用regression预测丰原站pm
【ML入门】李宏毅机器学习笔记02-回归问题（Regressio
李宏毅机器学习——回归
[机器学习入门] 李宏毅机器学习笔记-5（Classificat

根据之前的理论，机器学习就是在找合适的函数公式。例如：

· 股票预测问题：输入-过去十年某股票的价格，输出-明天该股票的价格

· 无人驾驶问题：输入-传感器收集的各种信息，输出-方向盘的角度

· 推荐系统问题：输入-用户已经购买的商品，输出-购买该商品的可能性

1. 案例问题

案例背景：预测进化后精灵宝可梦的CP（combat power）值，如果可以预测到该宝可梦进化后的cp值，就可以选择是否进化它。

2. 回归建模过程：

step 1: Model

机器学习的第一步，就是找到一组我们想要的函数表达式的组合，由前的分析可知，我们这里选择的是一组线性表达式。

在上式中，X代表的是输入的自变量，比如宝可梦的身高、体重等等，我们叫特征（feature）；w是权重（weight），b代表偏差（bias）也就是截距项。

step 2: Goodness of Function

因为是有监督的学习，所以要收集训练集。

在收集好训练集后，我们需要定义另外一个函数——损失函数（Loss Function），这个函数的作用是告诉我们，我们目前所选择的模型等到的预测值，与其所对应的真实值的偏差是多少，然后从中找出对应的损失函数值最小的，函数表达式，通过这个过程，我们可以从之前的一组表达式中，找到我们想要的准确的最高的表达式。

step 3: Best Function

通过之前的过程，我们已经确定了最小的损失函数，所对应的参数w、b的值

通过之前的分析，我们已经知道了如何找到想要表达式的思路，但是如果通过穷举法来找到W、b效率太低，当计算量过大时就很不现实。由于我们已经得到了如上的表达式，就可以考虑如何用数学工具来求解，这里就使用了一个很有用的算法——梯度下降（Gradient Descent）。

梯度下降的具体操作：先随机选取一个点w0，然后在改点求L的微分，如果小于0就向右移动，大于0则向左，直到微分值为0，这样会找到一个局部最优解。在这个过程中由两个问题：

· 每次迭代，具体移动多远的距离呢？这取决于学习率（learning rate），也就是上式中的η值，具体取多少，在下节中会介绍。

· 由于随机选取的w0，所以找到的局部最优解，不一定是全局最优解，但是该问题在线性问题中不存在，由于为线性函数，所以只有一个最优解。

那由于在本次案例中，由连个参数，所以我们需要同时考虑w和b，其实就是一元到多元的推广，在这里也介绍了“梯度”的具体含义：所求参数值的偏微分。

将求出的参数值带入表达式，并输入测试集数据进行验证，发现损失函数为35，如何优化我们的函数呢？根据散点图，考虑引入一个二次项。

加入二次项后，我们继续用梯度下降进行求解，发现误差值明显变小了，那如果加入三次项会不会更精确呢？结果显示有变化了一点。

我们继续考虑加入四次项：

加入四次项后，在训练集的效果更好了，我们的模型更的拟合了训练集，但是在测试集的表现缺变差了，那这种情况就叫做过拟合这里就涉及到模型的泛化能力，也说明不是一味的准确训练集的准确率。所以应该如何选择合适的模型呢？

step 4: Redesign the Model

由于不同的宝可梦，进化的CP值有着显著的差异，所以我们考虑加入一个示性函数，对不同的宝可梦建立不同的方程。

但是这里只考虑了过去的cp值这一个特征，根据之前的研究，我们还可以加入其他的自变量

如上，是一个很复杂的模型，既考虑了不同的物种，也考虑了不同的特征，但是很现在这个模型过拟合了。

step 5: Regularization

如何解决过拟合问题呢，需要加入一个正则项，来约束加入的参数项。

在之前的损失函数的基础上，加入一个正则项，会使得误差变小的同时，模型不会过于复杂从而导致过拟合的情况。加入正则项也会是的函数更为平滑，平滑的函数对于异常值，不会过于敏感从而出现过拟合。

这里我们选择不同的λ的值，来看在训练集和测试集的误差变化，发现我们需要使得模型平滑，以防过拟合，但是过于平滑的函数也会使得误差变大。

总结：

建立线性模型后，需要用梯度下降来找到最优解的参数值（b、w）

在确定模型的时候，需要做到准确度和复杂度的平衡，越复杂的模型可能会在训练集上有很好的拟合，但是会出现过拟合的情况，而导致在测试集误差很大，所以加入正则项来使得函数变得平滑，所以最后函数需要多平滑，也就是λ的值，就是我们需要不断调整的参数。

相关文章

[机器学习入门]李宏毅机器学习笔记-2（Regression：C
[机器学习入门]李宏毅机器学习笔记-2（Regression：Case Study；回归：案例研究） Regres...
李宏毅老师机器学习课程笔记_ML Lecture 3-1: Gr
引言：这个系列的笔记是台大李宏毅老师机器学习的课程笔记视频链接（bilibili）：李宏毅机器学习(2017)另...
2020台大李宏毅机器学习作业一——回归（案例学习）
根据之前的理论，机器学习就是在找合适的函数公式。例如： · 股票预测问题：输入-过去十年某股票的价格，输出-明天该...
线性回归（1）
感谢李宏毅《回归-案例研究》部分内容为听取李宏毅老师讲座的笔记，也融入了自己对机器学习理解，个人推荐李宏毅老师的...
深度学习资料整合
深度学习课程吴恩达深度学习课程网易云课堂台大李宏毅中文机器学习课程(2017)课程主页bilibili 台大林...
《李宏毅 - 深度学习》笔记
学习资源视频：李宏毅深度学习完整版别人的中文笔记：李宏毅机器学习笔记(LeeML-Notes)李宏毅机器学习笔...
机器学习（李宏毅）作业1-利用regression预测丰原站pm
最近开始学习机器学习，听同学介绍，选择了台大李宏毅老师的视频，https://www.bilibili.com/v...
【ML入门】李宏毅机器学习笔记02-回归问题（Regressio
【ML入门】李宏毅机器学习笔记02-回归问题（Regression） - 知乎 https://zhuanlan...
李宏毅机器学习——回归
回归定义 Regression 就是找到一个函数，通过输入特征，输出一个数值。模型步骤 Step 1: ...
[机器学习入门] 李宏毅机器学习笔记-5（Classificat
[机器学习] 李宏毅机器学习笔记-5（Classification: Probabilistic Generati...

网友评论

2020李宏毅机器学习

本文标题：2020台大李宏毅机器学习作业一——回归（案例学习）

本文链接：https://www.haomeiwen.com/subject/ymvoyhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

2020李宏毅机器学习

热点阅读

2020李宏毅机器学习

关于我们|服务条款|联系我们|2020台大李宏毅机器学习作业一——回归（案例学习）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！