美文网首页
李宏毅老师2017上课摘要笔记

李宏毅老师2017上课摘要笔记

作者: 音符纸飞机 | 来源:发表于2019-04-24 21:53 被阅读0次

其他人的笔记一

Regression:系统的输出是一个标量
Classification:在输出中多选一

  • 线性
  • 非线性:DeepLearning SVM decision-tree KNN...

Transfer Learning:训练过的系统可以分类大象、猴子。那么它对识别猫狗有什么帮助

Unsupervised Learning:Machine Drawing

Structured Learning:

Reinforcement Learning:从评价中去学习,没有数据去做supervised learning的时候做

Regression

天气预测,股价预测,自动驾驶等等

bias 偏差 模型对于数据的拟合度 欠拟合的模型 高偏差
variance 方差 对于数据改变的敏感性 过拟合的模型 高方差

bias vs. variance

AdaGrad自适应学习率的梯度下降
核心思想:每个参数第t次的学习率都会除以之前所有微分的均方根

Stochastic Gradient Descent 随机梯度下降

半监督学习

概念:部分数据没有label

自学习

训练的时候,先用有label的数据进行模型训练,然后将模型用于没有label的测试数据。然后将部分训练数据放回训练集重新训练模型(放回的规则自定义)
这种方法不适用于回归问题,原因是哪些放进训练集的数据对模型不会有任何影响。(是不是显而易见)


hard label vs soft label, NN中用hard label

没有label的数据,用作熵正则项,对模型进行训练


loss function
Smoothness Assumption
x2,x3虽然比较近,但是x1,x2之间有high density path

方法:cluster and then label (聚类)
对于图像,先用deep autoencoder抽取特征,再做聚类


定义相似度函数 e-neighborhood表示达到相似度阈值了才能算是邻居
如何计算平滑度
平滑度数学表达
如果xi,xj距离很近,我们希望他们的label yi, yj距离也很近

非监督学习

  • 聚类、降维
  • generation生成
PCA
W的2norm等于1,则点积的值就是投影
w的个数是要降到的维数吗,求解W用
数学推演,w1是x的协方差矩阵最大特征值所对应的的特征向量

PCA可以用奇异值分解SVD来求解

LLE
xi是多个邻接点xj的线性组合
xi降维到zi,xj降维到zj,保持wij不变
对zi的限制

上面这些算法的问题是没有定义如果xi,xj距离很远,zi,zj应该是什么关系

t-SNE
P和Q相当于把相似度做了归一化,tSNE的想法就是降维前后的相似度分布元接近越好

常用于高维数据在低维空间的可视化

AutoEncoder

降维
PCA的神经网络版本

image.png 关键是code有多好,能不能进行区分,上面是PCA,下面是auto encoder 为了encode更好,可以在数据上加一些噪声 unpooling
deconvolution
图像生成

Pixel RNN

VAE
VAE可以控制输出,学习出来的code中,每一项都在图中都有实际意义,比如头发长度,眼睛大小等等。


最小化输入输出差异的同时,还需要最小化下面这一项,为了限制训练出来的方差不能太小,否则都是0了 VAE与高斯混合模型的关系

VAE的局限:始终没有学着生成新的图片

GAN generative adversarial network

generator(decoder in VAE)
discriminator

调参很困难 没有明确的信号告诉你目前的generator是不是足够好

Transfer Learning

target data (与Task相关的数据)
source data (与Task没有直接关系的数据)
one shot learning (target data很少)


transfer learning 分类
fine tune
  • fine tune的时候加regularization (比如新模型和旧模型差异的L2)
  • fine tune 部分层 (语音辨识一般fine tune 前面几层,图像识别一般是fine tune后面几层)
Multitask Learning
Multitask
Domain-adversarial training (GAN的一种)
task description
如果用传统的神经网络,source和targetd的feature分布可能是完全不相干的,如图中的蓝色和红色,我们希望有一种办法,让两者的分布尽量相同 引入domain classifier feature extractor 要对抗domain classifier, 尽量让domain classifier分不清输入的图像是来自哪个domain 核心优化算法
Zero shot learning
task description 一种思想:找到比分类本身更小的元素(特征) image.png

SVM

SVM=hinge loss + kernel method


delta不可微分,所以不能GD ideal loss是不可微分的,hinge loss (60分就好, 超过margin1 就好)
Linear SVM
SVM可以用GD的 训练出来的模型参数W其实就是所有训练数据的线性组合。由于hingeloss的特性,alfa是一个稀疏矩阵(不是所有的xn都会加到w里去),不为0的那些训练数据就是支持向量 kernel function K相似度函数,不同的kernel,即不同的相似度函数,x_test与每一个x_train计算相似度 rbf kernel

Regression:
SVR: 在某个距离范围内loss就是0

Structured Learning

例子:目标检测的bounding box


image.png 举个栗子

RNN

RNN结构 举个栗子
xt做线性变换成z 每个z都是Vector,z的每个维度操控LSTM每个cell的输入 image.png
Attention based model
image.png image.png Speech Question Answering

相关文章

网友评论

      本文标题:李宏毅老师2017上课摘要笔记

      本文链接:https://www.haomeiwen.com/subject/hsqrmqtx.html