李宏毅2018笔记（未完）

李宏毅2018笔记（未完）

作者: 音符纸飞机 | 来源:发表于2019-05-03 18:12 被阅读0次

relu理论上可以拟合任何复杂的函数，piece-wide function

shallow vs. deep: Deep needs fewer neurons

In shallow network, each neuron only provides one linear piece.

piece-wide function 折线的上限是 $2^n$ ，其中n是relu的个数

deep

DNN的前面的layer更重要

DNN的损失函数不是凸函数，局部最小值基本就是全局最小，梯度为0的点叫做critical point

h是Hessian矩阵， g是梯度, Hessian矩阵用来帮助判断当前的critical point的性质

绿线是指包含g的曲线，红线是包含H的曲线

牛顿法通过H^-1一步可以直接计算到极致点

H能够告诉我们当前critical point的种类

正定矩阵

Hessian矩阵与极值点的关系

theta不管往哪个方向走，都是H特征向量的线性组合

Hessian例子

两个神经元连接的损失函数不是凸函数（一个神经元是凸函数，就是linear regression）

只要所有的hidden layer的size大于输入输出的size，找到的局部最小值一定是全局最小值

参数越多，critical point是saddle point（鞍点）的概率越大

BN的作用

skip connection的作用

sharpness

小batch训练的效果更好，可能和sharpness有关

SELU, 输入输出的miu和方差趋近

best practice: standardscaler + selu + lecun_normal

SELU性能很好

GAN

DCGAN的技巧：使用leaky relu, BN, Generator最后一层的激活函数使用tanh，优化器使用Adam

相关文章

网友评论

本文标题：李宏毅2018笔记（未完）

本文链接：https://www.haomeiwen.com/subject/upwgvqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|李宏毅2018笔记（未完）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！