Lecture4 视频链接
Reporter: Jonas Peters
第三部分: 在机器学习中的应用
半监督机器学习
对于 存在
, 对于
不存在已知的答案。 希望借由
, 提升前半部分的有监督机器学习(先对X进行聚类, 然后帮助有监督学习)。
马尔科夫分解带来的模块化
![](https://img.haomeiwen.com/i25067830/3b06609e9c4c0342.png)
举例
![](https://img.haomeiwen.com/i25067830/15600bc6b2855109.png)
推出结论
进一步的:
![](https://img.haomeiwen.com/i25067830/ecc7b6a3f60105b8.png)
结论是:由于 和
独立, 所以
并不能帮助有监督学习部分提升。所以, 半监督学习的想法无效。
![](https://img.haomeiwen.com/i25067830/49eee800063953da.png)
Half-sibling Regression
![](https://img.haomeiwen.com/i25067830/b938114e8bbc3766.png)
![](https://img.haomeiwen.com/i25067830/428318fc609683a8.png)
举的例子是 开普勒望远镜搜索地外行星的例子, 搜索地外行星依赖的的是观察那些恒星的光线会变暗。
![](https://img.haomeiwen.com/i25067830/7c459a2e4df18a96.png)
讲着希望, 能够从 Y 中去掉 可以被 X 解释的部分。 因为可以被X解释的部分, 就是噪音。 因为 Y 和X 是 sibling, 所以这种回归叫 Half-sibling 回归。
![](https://img.haomeiwen.com/i25067830/f7b69a7bebc8e170.png)
这是结果, 第二行是使用这个回归出来以后的结果。 据他说, 效果很好。 蓝色的点, 就是地外行星信号, 可以看出来周期很规律。
![](https://img.haomeiwen.com/i25067830/b62ea69306a0256f.png)
增强学习
![](https://img.haomeiwen.com/i25067830/404136c6ed2c52c3.png)
还回到之前那个肾结石的例子中去。依据 Markov 分解, 可以分解为三个互相独立的部分, 其中
代表的意思是, 依据结石大小来选择治疗方案的分布。
基于第一个公式,引申一下, 如果想通过改善治疗方案分配, 而获得最佳的治疗结果, 实际上就是在结石大小(S)这个状态下, 选择最优的 治疗方法 (Action)。 这其实就是增强学习的奥义。
例子 21点 (BlackJack)
![](https://img.haomeiwen.com/i25067830/9e987b4ebdd00759.png)
![](https://img.haomeiwen.com/i25067830/fdc3a043daac5ceb.png)
![](https://img.haomeiwen.com/i25067830/b147d4672770d9df.png)
![](https://img.haomeiwen.com/i25067830/33b63cd3274d2613.png)
![](https://img.haomeiwen.com/i25067830/5e95b6081631bf03.png)
例子 广告
![](https://img.haomeiwen.com/i25067830/e64a3b8a0333f2e5.png)
例子 转移学习
![](https://img.haomeiwen.com/i25067830/12918467f9383cb7.png)
![](https://img.haomeiwen.com/i25067830/499d39d3ef7eb868.png)
总结
![](https://img.haomeiwen.com/i25067830/2fb7047f2853037d.png)
网友评论